データ・プロファイリング(またはデータの発掘)は、ある組織においてデータがどのように構造化されているかをよりよく理解し、データ品質の水準を維持するために、データをレビューおよびクレンジングするプロセスです。
主な目的は、データをレビューおよび要約する各種の手法によりデータの品質に関するインサイトを得て、データの状態を評価することです。 この作業は通常、データ・エンジニアがさまざまなビジネス・ルールと分析アルゴリズムを使用して行います。
データ・プロファイリングでは、精度、一貫性、適時性などの要素に基づいてデータを評価することで、データに一貫性や精度が欠けていないか、null値が含まれていないかを明らかにします。データ・セットによっては、列形式の数値や値など、統計のように単純な結果が得られる場合があります。データ・プロファイリングは、データ・ウェアハウジングやビジネス・インテリジェンスを伴うプロジェクトに使用できるうえ、ビッグデータにとってはさらに有益です。データ・プロファイリングは、データ処理とデータ分析に先行する重要なプロセスになり得ます。
企業はソフトウェアやアプリケーションを統合して、データセットが適切に準備され、不良データを削除するために最大限の利点を活用できるようにします。具体的には、どのソースにデータ品質の問題が発生しているか、または引き起こされているかを判断できます。これは、最終的には全体的なビジネス運営および財務上の成功に影響を与えます。このプロセスでは、必要なデータ品質評価も実行されます。
データ・プロファイリングの最初のステップは、分析のためにデータ・ソースと関連するメタデータを収集することであり、多くの場合、外部キー・リレーションシップの検出につながる可能性があります。 次の手順では、データをクリーンアップして統一された構造を確保し、重複を排除することを目的としています。 データがクリーニングされると、データプロファイリングソフトウェアはデータセットを記述する統計を返し、平均値、最小値/最大値、頻度などを含めることができます。 以下では、適切なデータプロファイリング手法の概要を説明します。
データ・マイニングと重複する部分もありますが、データ・プロファイリングでは異なる目標が念頭に置かれています。違いは何でしょうか。
言い換えれば、データ・プロファイリングは、データが正確であり、不正確な点がないことを確認するために使用するツールの最初のものである。
データ プロファイリングは、組織がデータを処理する方法の重要な部分である必要があり、企業はデータ クリーニングの重要な要素としてデータ プロファイリングを検討する必要があります。 データを理解するのに役立つだけでなく、データが標準の統計的尺度に準拠していることを検証することもできます。 アナリストのチームはさまざまな方法でデータ プロファイリングにアプローチできますが、通常は、データの品質を向上させ、より深く理解するという同じ目標を念頭に置いて、3 つの主要なカテゴリに分類されます。
アナリストがデータをプロファイリングするために使用する可能性のあるアプローチは次のとおりです。
一般に、データのプロファイリング時に問題が発生することはほとんどありません。 十分な量のデータがある場合と、データの質が重要になるのは別の話であり、そこでデータ プロファイリングが重要になります。 正確にフォーマットされた標準化されたデータがある場合、クライアントが不満を抱いたり、コミュニケーションに誤りが生じる可能性はほとんど、あるいはまったくありません。
たとえば、データが 1 か所にすべて揃っていない場合、見つけるのが非常に困難になるため、問題のほとんどは本質的にシステム的なものです。 しかし、特定のデータ ツールやアプリケーションをインストールする場合、それは問題にはならず、企業の意思決定に関してのみ利益をもたらします。 その他の主な利点と課題を詳しく見てみましょう。
データ プロファイリングは、他のツールとは異なり、データの高レベルの概要を提供します。 具体的には、次のことが期待できます。
データ プロファイリングの課題は通常、関連する作業の複雑さに起因します。 より具体的には、次のことが期待できます。
どのようなアプローチであっても、次のデータ プロファイリング ツールとベスト プラクティスにより、データ プロファイリングの精度と効率が最適化されます。
列プロファイリング:このメソッドはテーブルをスキャンし、各列内で各値が出現する回数をカウントします。列プロファイリングは、列内の頻度分布とパターンを見つけるのに役立ちます。
クロス・カラム・プロファイリング:このテクニックは、キー分析と依存分析という2つのプロセスで構成されている。 キー分析プロセスでは、可能性のある主キーを探し出すことによって属性値の配列を調べます。 一方、依存関係分析プロセスは、データ セット内にどのような関係やパターンが埋め込まれているかを特定するために機能します。
クロステーブル・プロファイリング:この手法は、キー分析を使って迷走データを特定する。 外部キー分析では、孤立したレコードや一般的な差異を特定し、異なるテーブルの列セット間の関係を調べます。
データルールの検証:この手法では、データセットを確立されたルールや標準に照らして評価し、実際に定義済みのルールに従っているかどうかを検証する。
キーの完全性:鍵が常にデータ内に存在することを保証し、問題となりうるオーファンキーを特定する。
カーディナリティ:この手法では、データセット間の1対1や1対多などの関係をチェックする。
パターンと度数分布:このテクニックは、データフィールドが正しくフォーマットされていることを保証する。
データプロファイリングは、業界を問わずさまざまな状況で精度、品質、使いやすさを向上させることができますが、より顕著なユースケースには次のものがあります。
データの変換:データは、処理される前に、使用可能で整理されたセットに変換される必要があります。これは、予測モデルを作成してデータを調べる前の重要なステップであるため、これらのステップの前にデータ・プロファイリングを実行する必要があります。これは、データ変換を強化するために組み込まれたクラウドネイティブ・データベースであるIBM Db2によって実現できます。
さらに、ELT(追加、ロード、変換)とETL(抽出、変換、ロード)は、未加工データをソース・システムからターゲット・データベースに移動するデータ統合プロセスです。IBMは、ビジネス対応のデータ・パイプラインをサポートし、企業が効率的に拡張するために必要なツールを提供するデータ統合サービスとソリューションを提供します。
データの統合複数のデータセットを適切に統合するには、まず各データセット間の関係を理解する必要がある。 これは、データのメトリクスを理解し、それらをリンクする方法を決定する際に重要なステップです。
クエリーの最適化:貴社に関する最も正確で最適化された情報を得たいのであれば、データ・プロファイリングが鍵となります。データ・プロファイリングでは、データベースの特性に関する情報が考慮され、各データベースに関する統計が作成されます。IBM i 7.2 ソフトウェアは、まさにこの目的のためにデータベース・パフォーマンスとクエリーの最適化を提供します。データベース・ターンの目的は、システム・リソースを最大限に活用して、クエリーの応答時間を最小限に抑えることです。
ABIソリューションの進化する状況について独自の洞察を提供し、データおよび分析のリーダーにとって重要な調査結果、仮定、推奨事項をご覧ください。
データ・アクセスを簡素化し、データ・ガバナンスを自動化します。ワークロードのコスト最適化、AIと分析の拡張など、データレイクハウス戦略をデータ・アーキテクチャーに統合することで、あらゆるデータをあらゆる場所で利用できるようになります。
データ駆動型の組織を構築し、ビジネス上の優位性を推進するためのデータ・リーダー向けガイドはこちらです。
オープンなデータレイクハウス・アプローチがどのように信頼できるデータを提供し、分析とAIプロジェクトをより迅速に実行できるかをご覧ください。
4つの重要なステップで、データおよび分析戦略をビジネス目標に結び付けましょう。
ビジネス・インテリジェンスの課題がなぜ解決されないのか、そしてそれが組織全体のユーザーにとって何を意味するのかを詳しく見てみましょう。
企業が繁栄するには、データを活用して顧客ロイヤルティーを構築し、ビジネス・プロセスを自動化し、AI駆動型のソリューションで業務を刷新する必要があります。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。
より良い意思決定を可能にする、AIを活用して洞察を引き出すCognos Analytics 12.0をご紹介します。