データ・プロファイリングとは

データ・プロファイリング（またはデータ考古学）は、データの構造をより深く理解し、組織内のデータ品質標準を維持するために、データをレビューしてクレンジングするプロセスです。主な目的は、さまざまな手法でデータをレビューして要約し、その状態を評価することにより、データの品質に関する洞察を得ることです。この作業は通常、データ・エンジニアがさまざまなビジネス・ルールや分析アルゴリズムを使用して行います。

データ・プロファイリングでは、正確性、一貫性、適時性などの要素に基づいてデータを評価し、データに一貫性や正確性が欠けていないか、あるいはヌル値が含まれていないかを示します。データ・プロファイリングの結果は、データ・セットに応じて、数値や列形式の値など、統計のような単純なものである場合があります。データ・プロファイリングは、データウェアハウスやビジネス・インテリジェンスに関するプロジェクトに使用でき、ビッグデータにはさらに有益です。データ・プロファイリングは、データ処理やデータ分析の重要な前段階となることがあります。

watsonx.dataの登場

AIワークロードを、あらゆるデータにあらゆる場所で拡張します。

データ・プロファイリングの仕組み

企業は、ソフトウェアやアプリケーションを統合することで、データ・セットが適切に準備され、そのデータ・セットが不正データの除去に最大限に活用されるようにします。具体的には、どのソースにデータ品質（英語）の問題があるのか、またはどのソースがその問題の原因なのかを特定します。これは、最終的にビジネス全体の運用や財務上の成功に影響します。このプロセスでは、必要なデータ品質評価も実施します。

データ・プロファイリングの最初のステップは、分析用のデータ・ソースと関連メタデータを収集することです。多くの場合、これは外部キー関係の発見につながります。次のステップは、データをクリーンアップすることで、構造の統一や、重複の排除などを行うことを目的としています。データがクリーンアップされると、データ・プロファイリング・ソフトウェアは、データ・セットを記述する統計を返します。この統計には、平均、最小値/最大値、頻度などが含まれます。以下では、適切なデータ・プロファイリング手法の概要を説明します。

データ・プロファイリングとデータ・マイニング

データ・プロファイリングの目的は、データ・マイニングと一部重なるものの、データ・マイニングとは異なります。違いは、以下のとおりです。

データ・マイニングがデータを分析することによってパターンや傾向を発見するプロセスであるのに対し、データ・プロファイリングはデータとその特性の理解に役立つものです。

データ・プロファイリングは、メタデータを収集し、それをさまざまな手法で分析することによって、データ管理をサポートすることに重点を置いています。

データ・プロファイリングは、データ・マイニングとは異なり、データ特性の概要を生成して、データを利用できるようにします。

つまり、データ・プロファイリングは、データが正確であり、不正確性が存在しないことを確認するために使用する最初のツールです。

データ・プロファイリングのタイプ

データ・プロファイリングは、組織がデータを扱う上で不可欠な要素であり、企業はデータ・プロファイリングをデータ・クリーニングの重要な要素と認識する必要があります。データ・プロファイリングは、データを理解するのに役立つだけでなく、データが標準的な統計基準を満たしているかどうかを検証することもできます。アナリストのチームは、さまざまな方法でデータ・プロファイリングにアプローチできます。通常、これらのアプローチは、データの品質を向上させ、データをより深く理解するという同じ目的を念頭に、以下の3つの主要なカテゴリーに分類できます。

アナリストがデータ・プロファイリングに使用できるアプローチは、以下のとおりです。

構造の発見：このアプローチでは、データのフォーマットと、データベース全体でデータの一貫性を確保することに重点を置きます。アナリストは、このアプローチでデータベースを調査するときに、さまざまなプロセスを使用できます。 1つは、フォーマット固有の情報を理解するのに役立つパターン・マッチングです。例えば、複数の電話番号を並べたときに、1つだけ値が欠けているような場合です。このようなものは、「構造の発見」で見つけることができます。
コンテンツの発見：このタイプは、データ行にエラーやシステム上の問題がないかを分析する場合に使用します。このプロセスは、データベースの個々の要素を詳しく調べるもので、誤った値を見つけるのに役立ちます。
関係の発見：このタイプでは、どのようなデータが使用されているかを調べ、各セット間の関連性を見つけます。これを行うために、アナリストはメタデータを分析してデータ間の関係を把握した後、特定のフィールド間の関連性を絞り込みます。

データ・プロファイリングのメリットと課題

一般的に言えば、データ・プロファイリングにデメリットはほとんどありません。データの量が十分であることとは別に、品質が重要であり、そのためにデータ・プロファイリングが必要になります。データが正確にフォーマットされ、標準化されていれば、顧客が不満を抱いたり、コミュニケーション・ミスが生じたりする可能性はほとんどありません。

例えば、データが1カ所にまとまっていない場合、データの検索が非常に困難であるように、データ・プロファイリングの課題は主にシステム的なものです。しかし、特定のデータ・ツールやアプリケーションを導入することで、この問題は解決され、意思決定において企業にメリットをもたらします。その他の主なメリットと課題は、以下のとおりです。

メリット

データ・プロファイリングは、他のツールとは異なり、データの概要を提供できます。具体的には、以下のようなことが考えられます。

より正確な分析：完全なデータ・プロファイリングにより、より高品質で信頼性の高いデータを確保できます。適切なデータ・プロファイリングは、さまざまなデータ・セットとソース間の関係のより正確な理解と、データ・ガバナンスの手順のサポートに役立ちます。

情報の一元管理：データ・プロファイリングを通じてデータを調査して分析することで、データの品質が大幅に向上し、データが適切に編成されることが期待できます。ソース・データをレビューすることで、エラーが排除され、最も問題のある領域が強調されます。その結果、データを最適な方法で一元化するための洞察と組織を得ることができます。

課題

データ・プロファイリングの課題は、通常、関連作業の複雑さに起因します。具体的には、以下のようなことが考えられます。

コストと時間がかかる：一般的な組織で収集されるデータの量は膨大であるため、プログラムを実装する際のデータ・プロファイリングは、非常に複雑になることがあります。適切なツールを使用することなく、訓練された専門家を雇って結果を分析し、意思決定を行うと、非常にコストと時間がかかる場合があります。

不適切なリソース：データ・プロファイリング・プロセスを開始するには、企業のすべてのデータが1カ所にまとめられている必要がありますが、多くの場合、そうではありません。データがさまざまな部門に分散しており、訓練されたデータ専門家が適切に配置されていない場合、企業全体のデータ・プロファイリングは非常に困難になる可能性があります。

データ・プロファイリング・ツールとベスト・プラクティス

どのようなアプローチであっても、以下のデータ・プロファイリング・ツールとベスト・プラクティスによって、データ・プロファイリングの精度と効率を最適化できます。

列プロファイリング：この手法では、テーブルをスキャンし、各列内の各値が表示される回数をカウントします。列プロファイリングは、列内の度数分布とパターンを見つけるのに便利です。

クロス列プロファイリング：この手法は、キー分析と依存関係分析の2つのプロセスで構成されます。キー分析プロセスでは、可能性のある主キーを探すことによって、属性値の配列を調べます。一方、依存関係分析プロセスでは、データ・セットにどのような関係やパターンが埋め込まれているかを特定します。

クロス・テーブル・プロファイリング：この手法では、キー分析を使用して、孤立したデータを特定します。外部キー分析では、孤立したレコードや一般的な差異を特定し、さまざまなテーブルの列セット間の関係を調べます。

データ・ルール検証：この手法では、確立されたルールや標準に照らしてデータ・セットを評価し、データ・セットが実際にそれらの事前定義されたルールに従っているかどうかを検証します。

キーの完全性：キーが常にデータ内に存在することを確認し、問題となる可能性のある孤立したキーを特定します。

カーディナリティー：この手法では、1対1または1対多など、データ・セット間の関係をチェックします。

パターンと度数分布：この手法では、データ・フィールドが正しくフォーマットされているかを確認します。

データ・プロファイリングのユースケース

データ・プロファイリングは、さまざまな業界のさまざまな状況で精度、品質、使いやすさを向上させることができますが、より顕著なユースケースとしては、以下のようなものがあります。

データ変換：データを処理するには、事前にデータを使用可能で整理されたデータ・セットに変換する必要があります。データ変換は予測モデルを作成してデータを調査する前の重要なステップであるため、これらのステップの前にデータ・プロファイリングを実行する必要があります。 IBM Db2 Warehouse on Cloudは、高性能な分析とAIのために構築された弾力性のあるクラウド・データウェアハウスです。このデータウェアハウスを使用すると、企業全体のデータを集約できます。

ELT（抽出、ロード、変換）とETL（抽出、変換、ロード）（英語）は、ソース・システムからターゲット・データベースへ生データを移動するデータ統合プロセスです。 IBMは、ビジネス対応のデータ・パイプラインをサポートし、お客様に効率的なスケーリングに必要なツールを提供するために、データ統合のサービスとソリューションを提供しています。

データ統合：複数のデータ・セットを適切に統合するには、まず各データ・セット間の関係を理解する必要があります。これは、データの測定基準を理解し、それらをどのように関連付けるかを決定する際に重要なステップです。

照会の最適化：自社に関する最も正確で最適化された情報を入手したい場合、データ・プロファイリングが鍵になります。データ・プロファイリングでは、データベースの特性に関する情報が考慮され、各データベースに関する統計が作成されます。 IBM i 7.2ソフトウェアは、まさにその目的のために、データベースのパフォーマンスと照会を最適化します。データベースの最適化の目的は、システム・リソースを最大限に活用することで、照会の応答時間を最小限に抑えることです。