データ ラングリングとはデータ・サイエンス、機械学習(ML)、その他のデータ駆動型アプリケーションで使用するために未加工データをクリーニング、構造化、強化するプロセスです。
データ・マングリングまたはデータ準備とも呼ばれるデータ・ラングリングは、欠損値、重複、外れ値、フォーマットの不一致などのデータ品質の問題に対処する手法です。データ・ラングリングの目的は、生の非構造化データや問題のあるデータを、効果的に分析できるクリーンなデータ・セットに変換することです。データ・ラングリングは、データ・サイエンティスト、データ・アナリスト、その他のビジネス・ユーザーが情報に基づいた意思決定をサポートする方法でデータを適用する際に役立ちます。
今日、組織はさまざまなソースから、雪崩のような大量のデータにアクセスできます。しかし、この未加工データは、煩雑で一貫性がないか、データを洞察に変えるさまざまなプロセスやツールでの使用に適していない場合があります。適切なデータ・ラングリングがなければ、データ分析の成果は誤解を招く可能性があります。企業は不正確な結論を導き出し、欠陥のあるビジネス上の決定を下す可能性があります。
データ・ラングリングは、質の高い成果を実現するために重要な方法です。一連のステップによりデータを変換・マッピングすることで、クリーンで一貫性があり、信頼性が高く、目的の用途に役立つようになります。結果として得られるデータ・セットは、機械学習モデルの構築、データ分析の実行、データの可視化の作成、ビジネス・インテリジェンス・レポートの生成、情報に基づいた経営上の意思決定などのタスクに使用されます。
人工知能(AI)を含むデータ駆動型テクノロジーが進化するにつれて、データ・ラングリングの重要性が高まります。AIモデルの良し悪しは、トレーニングに使用するデータに左右されます。
データ・ラングリングのプロセスは、モデルの開発や強化に使用される情報が正確であることを担保する上で役立ちます。クリーンかつ適切に構造化されたデータは人間にとってもアルゴリズムにとっても理解しやすいため、解釈可能性が向上します。また、データの統合を支援し、異種のソースからの情報を簡単に組み合わせ、相互接続できるようにします。
データ・ラングリングのプロセスには、通常以下のステップが含まれます。
この初期段階では、データ・ソースやデータ形式を含むデータ・セット全体の品質を評価することに重点が置かれます。データはデータベース、アプリケーション・プログラミング・インターフェース(API)、CSVファイル、ウェブスクレイピング、またはその他のソースから来ているのでしょうか。また、どのように構造化され、どのように使用されるのでしょうか。
検出プロセスでは、データの欠落、フォーマットの不一致、エラーやバイアス、分析を歪める可能性のある外れ値などの品質上の問題を浮き彫りにして対処します。調査結果は通常、データ品質レポート、または統計、分布、その他の結果を含む、データ・プロファイリング・レポートと呼ばれるより技術的な資料に文書化されます。
データ構造化のステップは、データ変換とも呼ばれ、分析に適した統一された形式にデータを整理することに重点を置いています。これには以下が含まれます。
データ・クリーニングには、欠損値の処理、重複の削除、エラーや不整合の修正が含まれます。このプロセスには「ノイズの多い」データの平滑化、つまりデータのランダムな変動やその他の問題の影響を軽減する技術の適用も含まれます。クリーニングの際には、不必要なデータの損失や、貴重な情報が削除されたりデータを歪めたりする可能性があるオーバークリーニングを避けることが重要です。
データ・エンリッチメントでは、既存のデータ・セットに新しい情報を追加して、その価値を高めます。データ拡張とも呼ばれるこの手法では、どのような追加情報が必要か、またそれが取得できる可能性があるのはどこかを評価します。次に、その追加情報を既存のデータ・セットと統合し、元のデータと同じ方法でクリーニングする必要があります。
データエンリッチメントには、意図したユースケースに関連する人口統計データ、地理データ、行動データ、環境データを取り込むことが含まれる場合があります。たとえば、データ・ラングリング・プロジェクトがサプライチェーン・オペレーションに関連している場合、出荷データに気象情報を追加すると、遅延を予測するのに役立つ可能性があります。
このステップでは、ラングリングされたデータの精度と一貫性を検証します。まず、ビジネス・ロジック、データ制約、その他の問題に基づいて検証ルールを確立する必要があります。次に、以下のような検証手法が適用されます。
全体的な検証が済んだら、企業はラングリングされたデータを公開したり、アプリケーションで使用できるように準備する場合があります。このプロセスには、データ・ウェアハウスへのデータの読み込み、データの可視化の作成、機械学習アルゴリズムでの使用を目的とした特定の形式でのデータのエクスポートが含まれる場合があります。
特に複雑なデータの量が増え続けると、データ・ラングリングのプロセスには時間がかかることがあります。実際、データを準備し、使用可能な形式に変換する作業は、データアナリストの時間の45%から80%を占めるという調査結果もあります。1 2
データ・ラングリングには、プログラミング言語、データ操作技術、および専用ツールに関するある程度の技術的専門知識が必要です。しかし、最終的にはデータ品質が向上し、より効率的で効果的なデータ分析をサポートします。
組織はさまざまなツールとテクノロジーを使用して、さまざまなソースに由来するデータにラングリングを行い、全体的なビジネス・ニーズをサポートするデータ・パイプラインに統合します。それには、以下が含まれます。
PythonとRは、データ・マイニング、操作、分析などのデータ・ラングリング・タスクに広く使用されています。構造化照会言語(SQL)は、リレーショナル・データベースやデータ管理において不可欠です。
データ・ラングラーは、特に小規模なデータ・セットの基本的なデータ・クリーニングと操作において、Microsoft ExcelやGoogle スプレッドシートなどのツールを使用します。
データ・ラングリング・ツールは、データ・クレンジングとデータ変換のための視覚的なインターフェースを提供し、ワークフローの合理化とタスクの自動化に役立ちます。たとえば、 IBMプラットフォームで利用可能なデータ精製ツールを使用すると、未加工データをデータ分析やその他の目的で使用可能な形式にすばやく変換できます。
ビッグデータ・プラットフォームは、ビッグデータの量と多様性を処理するために必要なツールとスケーリング機能を提供することで、大規模で複雑なデータ・セットのラングリングをサポートします。Apache HadoopやApache Sparkなどのプラットフォームは、大規模なデータセットのラングリングに使用されます。これらのプラットフォームは、ビッグデータ技術を使用して、情報を高品質な分析と意思決定において使用できる形式に変換します。
AIは、自動化と高度な分析を通じてデータ・ラングリングをサポートします。機械学習のモデルとアルゴリズムは、外れ値の検出やスケーリングなどの問題の解決に役立つ可能性があります。他のAIツールは、大規模なデータ・セットを迅速に処理し、リアルタイムのトランスフォーメーションを処理し、クリーニング作業を導くパターンを認識できます。自然言語処理(NLP)インターフェースを使用すると、ユーザーはデータを直感的に操作できるため、技術的な障壁が軽減される場合があります。
すべてのリンク先は、ibm.comの外部にあります。
1 State of Data Science、Anaconda、2020年7月。
2 Hellerstein et al. Principles of Data Wrangling。オライリーメディア。2017年7月。
データサイエンスのツールとソリューションを使って、データ、アルゴリズム、機械学習、AI技術を活用してパターンを発見し、予測モデルを構築します。
より良い意思決定を可能にする、AIを活用して洞察を引き出すCognos Analytics 12.0をご紹介します。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。