データ・プロファイリング(またはデータ考古学)は、データの構造をより深く理解し、組織内のデータ品質標準を維持するために、データをレビューしてクレンジングするプロセスです。 主な目的は、さまざまな手法でデータをレビューして要約し、その状態を評価することにより、データの品質に関する洞察を得ることです。 この作業は通常、データ・エンジニアがさまざまなビジネス・ルールや分析アルゴリズムを使用して行います。
データ・プロファイリングでは、正確性、一貫性、適時性などの要素に基づいてデータを評価し、データに一貫性や正確性が欠けていないか、あるいはヌル値が含まれていないかを示します。 データ・プロファイリングの結果は、データ・セットに応じて、数値や列形式の値など、統計のような単純なものである場合があります。 データ・プロファイリングは、データウェアハウスやビジネス・インテリジェンスに関するプロジェクトに使用でき、ビッグデータにはさらに有益です。 データ・プロファイリングは、データ処理やデータ分析の重要な前段階となることがあります。
AIワークロードを、あらゆるデータにあらゆる場所で拡張します。
企業は、ソフトウェアやアプリケーションを統合することで、データ・セットが適切に準備され、そのデータ・セットが不正データの除去に最大限に活用されるようにします。 具体的には、どのソースにデータ品質(英語)の問題があるのか、またはどのソースがその問題の原因なのかを特定します。これは、最終的にビジネス全体の運用や財務上の成功に影響します。 このプロセスでは、必要なデータ品質評価も実施します。
データ・プロファイリングの最初のステップは、分析用のデータ・ソースと関連メタデータを収集することです。多くの場合、これは外部キー関係の発見につながります。 次のステップは、データをクリーンアップすることで、構造の統一や、重複の排除などを行うことを目的としています。 データがクリーンアップされると、データ・プロファイリング・ソフトウェアは、データ・セットを記述する統計を返します。この統計には、平均、最小値/最大値、頻度などが含まれます。 以下では、適切なデータ・プロファイリング手法の概要を説明します。
データ・プロファイリングの目的は、データ・マイニングと一部重なるものの、データ・マイニングとは異なります。 違いは、以下のとおりです。
つまり、データ・プロファイリングは、データが正確であり、不正確性が存在しないことを確認するために使用する最初のツールです。
データ・プロファイリングは、組織がデータを扱う上で不可欠な要素であり、企業はデータ・プロファイリングをデータ・クリーニングの重要な要素と認識する必要があります。 データ・プロファイリングは、データを理解するのに役立つだけでなく、データが標準的な統計基準を満たしているかどうかを検証することもできます。 アナリストのチームは、さまざまな方法でデータ・プロファイリングにアプローチできます。通常、これらのアプローチは、データの品質を向上させ、データをより深く理解するという同じ目的を念頭に、以下の3つの主要なカテゴリーに分類できます。
アナリストがデータ・プロファイリングに使用できるアプローチは、以下のとおりです。
一般的に言えば、データ・プロファイリングにデメリットはほとんどありません。 データの量が十分であることとは別に、品質が重要であり、そのためにデータ・プロファイリングが必要になります。 データが正確にフォーマットされ、標準化されていれば、顧客が不満を抱いたり、コミュニケーション・ミスが生じたりする可能性はほとんどありません。
例えば、データが1カ所にまとまっていない場合、データの検索が非常に困難であるように、データ・プロファイリングの課題は主にシステム的なものです。 しかし、特定のデータ・ツールやアプリケーションを導入することで、この問題は解決され、意思決定において企業にメリットをもたらします。 その他の主なメリットと課題は、以下のとおりです。
メリット
データ・プロファイリングは、他のツールとは異なり、データの概要を提供できます。 具体的には、以下のようなことが考えられます。
課題
データ・プロファイリングの課題は、通常、関連作業の複雑さに起因します。 具体的には、以下のようなことが考えられます。
どのようなアプローチであっても、以下のデータ・プロファイリング・ツールとベスト・プラクティスによって、データ・プロファイリングの精度と効率を最適化できます。
列プロファイリング:この手法では、テーブルをスキャンし、各列内の各値が表示される回数をカウントします。 列プロファイリングは、列内の度数分布とパターンを見つけるのに便利です。
クロス列プロファイリング:この手法は、キー分析と依存関係分析の2つのプロセスで構成されます。 キー分析プロセスでは、可能性のある主キーを探すことによって、属性値の配列を調べます。 一方、依存関係分析プロセスでは、データ・セットにどのような関係やパターンが埋め込まれているかを特定します。
クロス・テーブル・プロファイリング:この手法では、キー分析を使用して、孤立したデータを特定します。 外部キー分析では、孤立したレコードや一般的な差異を特定し、さまざまなテーブルの列セット間の関係を調べます。
データ・ルール検証:この手法では、確立されたルールや標準に照らしてデータ・セットを評価し、データ・セットが実際にそれらの事前定義されたルールに従っているかどうかを検証します。
キーの完全性:キーが常にデータ内に存在することを確認し、問題となる可能性のある孤立したキーを特定します。
カーディナリティー:この手法では、1対1または1対多など、データ・セット間の関係をチェックします。
パターンと度数分布:この手法では、データ・フィールドが正しくフォーマットされているかを確認します。
データ・プロファイリングは、さまざまな業界のさまざまな状況で精度、品質、使いやすさを向上させることができますが、より顕著なユースケースとしては、以下のようなものがあります。
データ変換:データを処理するには、事前にデータを使用可能で整理されたデータ・セットに変換する必要があります。 データ変換は予測モデルを作成してデータを調査する前の重要なステップであるため、これらのステップの前にデータ・プロファイリングを実行する必要があります。 IBM Db2 Warehouse on Cloudは、高性能な分析とAIのために構築された弾力性のあるクラウド・データウェアハウスです。 このデータウェアハウスを使用すると、企業全体のデータを集約できます。
ELT(抽出、ロード、変換)とETL(抽出、変換、ロード)(英語)は、ソース・システムからターゲット・データベースへ生データを移動するデータ統合プロセスです。 IBMは、ビジネス対応のデータ・パイプラインをサポートし、お客様に効率的なスケーリングに必要なツールを提供するために、データ統合のサービスとソリューションを提供しています。
データ統合:複数のデータ・セットを適切に統合するには、まず各データ・セット間の関係を理解する必要があります。 これは、データの測定基準を理解し、それらをどのように関連付けるかを決定する際に重要なステップです。
照会の最適化:自社に関する最も正確で最適化された情報を入手したい場合、データ・プロファイリングが鍵になります。 データ・プロファイリングでは、データベースの特性に関する情報が考慮され、各データベースに関する統計が作成されます。 IBM i 7.2ソフトウェアは、まさにその目的のために、データベースのパフォーマンスと照会を最適化します。 データベースの最適化の目的は、システム・リソースを最大限に活用することで、照会の応答時間を最小限に抑えることです。
IBM InfoSphere Information Analyzerは、データのコンテンツと構造を評価して、データの一貫性と品質を確保します。 また、InfoSphere Information Analyzerは、推論を行って異常を特定することで、データの精度を向上させることができます。
IBM InfoSphere® QualityStage®は、お客様のデータ品質と情報ガバナンスの取り組みをサポートするよう設計されています。 データの調査、クレンジング、管理を可能にして、顧客、ベンダー、場所、製品などの主要なエンティティーの一貫したビューを維持できるようにします。