データ・ラングリングとは

共同執筆者

Amanda McGrath

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

データ・ラングリングとは

データラングリングとはデータ・サイエンス、機械学習（ML）、その他のデータ駆動型アプリケーションで使用するために未加工データをクリーニング、構造化、強化するプロセスです。

データ・マングリングまたはデータ準備とも呼ばれるデータ・ラングリングは、欠損値、重複、外れ値、フォーマットの不一致などのデータ品質の問題に対処する手法です。データ・ラングリングの目的は、生の非構造化データや問題のあるデータを、効果的に分析できるクリーンなデータ・セットに変換することです。データ・ラングリングは、データ・サイエンティスト、データ・アナリスト、その他のビジネス・ユーザーが情報に基づいた意思決定をサポートする方法でデータを適用する際に役立ちます。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

データ・ラングリングが重要な理由

今日、組織はさまざまなソースから、雪崩のような大量のデータにアクセスできます。しかし、この未加工データは、煩雑で一貫性がないか、データを洞察に変えるさまざまなプロセスやツールでの使用に適していない場合があります。適切なデータ・ラングリングがなければ、データ分析の成果は誤解を招く可能性があります。企業は不正確な結論を導き出し、欠陥のあるビジネス上の決定を下す可能性があります。

データ・ラングリングは、質の高い成果を実現するために重要な方法です。一連のステップによりデータを変換・マッピングすることで、クリーンで一貫性があり、信頼性が高く、目的の用途に役立つようになります。結果として得られるデータ・セットは、機械学習モデルの構築、データ分析の実行、データの可視化の作成、ビジネス・インテリジェンス・レポートの生成、情報に基づいた経営上の意思決定などのタスクに使用されます。

人工知能（AI）を含むデータ駆動型テクノロジーが進化するにつれて、データ・ラングリングの重要性が高まります。AIモデルの良し悪しは、トレーニングに使用するデータに左右されます。

データ・ラングリングのプロセスは、モデルの開発や強化に使用される情報が正確であることを担保する上で役立ちます。クリーンかつ適切に構造化されたデータは人間にとってもアルゴリズムにとっても理解しやすいため、解釈可能性が向上します。また、データの統合を支援し、異種のソースからの情報を簡単に組み合わせ、相互接続できるようにします。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

エピソードに移動

データ・ラングリングのプロセス

データ・ラングリングのプロセスには、通常以下のステップが含まれます。

検出
構造化
クリーニング
エンリッチング
検証

検出

この初期段階では、データ・ソースやデータ形式を含むデータ・セット全体の品質を評価することに重点が置かれます。データはデータベース、アプリケーション・プログラミング・インターフェース（API）、CSVファイル、ウェブスクレイピング、またはその他のソースから来ているのでしょうか。また、どのように構造化され、どのように使用されるのでしょうか。

検出プロセスでは、データの欠落、フォーマットの不一致、エラーやバイアス、分析を歪める可能性のある外れ値などの品質上の問題を浮き彫りにして対処します。調査結果は通常、データ品質レポート、または統計、分布、その他の結果を含む、データ・プロファイリング・レポートと呼ばれるより技術的な資料に文書化されます。

構造化

データ構造化のステップは、データ変換とも呼ばれ、分析に適した統一された形式にデータを整理することに重点を置いています。これには以下が含まれます。

集計：要約統計を使用してデータ行を結合し、特定の変数に基づいてデータをグループ化する。
ピボット：行と列の間でデータを移動したり、データを他の形式に変換して使用できる状態にすること。
結合：複数のテーブルのデータを結合し、異種のソースからの関連情報を結合する。
データ型の変換：変数のデータ型を変更し、計算や統計手法の適用に役立てる。

クリーニング

データ・クリーニングには、欠損値の処理、重複の削除、エラーや不整合の修正が含まれます。このプロセスには「ノイズの多い」データの平滑化、つまりデータのランダムな変動やその他の問題の影響を軽減する技術の適用も含まれます。クリーニングの際には、不必要なデータの損失や、貴重な情報が削除されたりデータを歪めたりする可能性があるオーバークリーニングを避けることが重要です。

エンリッチング

データ・エンリッチメントでは、既存のデータ・セットに新しい情報を追加して、その価値を高めます。データ拡張とも呼ばれるこの手法では、どのような追加情報が必要か、またそれが取得できる可能性があるのはどこかを評価します。次に、その追加情報を既存のデータ・セットと統合し、元のデータと同じ方法でクリーニングする必要があります。

データエンリッチメントには、意図したユースケースに関連する人口統計データ、地理データ、行動データ、環境データを取り込むことが含まれる場合があります。たとえば、データ・ラングリング・プロジェクトがサプライチェーン・オペレーションに関連している場合、出荷データに気象情報を追加すると、遅延を予測するのに役立つ可能性があります。

検証

このステップでは、ラングリングされたデータの精度と一貫性を検証します。まず、ビジネス・ロジック、データ制約、その他の問題に基づいて検証ルールを確立する必要があります。次に、以下のような検証手法が適用されます。

データ型の検証：データ型が正しいことを確認する。
範囲または形式のチェック：値が許容範囲内に収まり、特定の形式に準拠していることを確認する。
整合性チェック：関連する変数間に論理的な一致があることを確認する。
一意性チェック：特定の変数（顧客ID番号や製品ID番号など）が一意の値を持つことを確認する。
クロスフィールド検証：変数間の論理的な関係（年齢や生年月日など）を確認する。
統計分析：記述統計と可視化を使用して、外れ値や異常を特定する。

全体的な検証が済んだら、企業はラングリングされたデータを公開したり、アプリケーションで使用できるように準備する場合があります。このプロセスには、データ・ウェアハウスへのデータの読み込み、データの可視化の作成、機械学習アルゴリズムでの使用を目的とした特定の形式でのデータのエクスポートが含まれる場合があります。

特に複雑なデータの量が増え続けると、データ・ラングリングのプロセスには時間がかかることがあります。実際、データを準備し、使用可能な形式に変換する作業は、データアナリストの時間の45％から80％を占めるという調査結果もあります。^{1 2}

データ・ラングリングには、プログラミング言語、データ操作技術、および専用ツールに関するある程度の技術的専門知識が必要です。しかし、最終的にはデータ品質が向上し、より効率的で効果的なデータ分析をサポートします。

データ・ラングリングのツールとテクノロジー

組織はさまざまなツールとテクノロジーを使用して、さまざまなソースに由来するデータにラングリングを行い、全体的なビジネス・ニーズをサポートするデータ・パイプラインに統合します。それには、以下が含まれます。

プログラミング言語
スプレッドシート
専用ツール
ビッグデータ・プラットフォーム
AI（人工知能）

プログラミング言語

PythonとRは、データ・マイニング、操作、分析などのデータ・ラングリング・タスクに広く使用されています。構造化照会言語（SQL）は、リレーショナル・データベースやデータ管理において不可欠です。

スプレッドシート

データ・ラングラーは、特に小規模なデータ・セットの基本的なデータ・クリーニングと操作において、Microsoft ExcelやGoogle スプレッドシートなどのツールを使用します。

専用ツール

データ・ラングリング・ツールは、データ・クレンジングとデータ変換のための視覚的なインターフェースを提供し、ワークフローの合理化とタスクの自動化に役立ちます。たとえば、 IBMプラットフォームで利用可能なデータ精製ツールを使用すると、未加工データをデータ分析やその他の目的で使用可能な形式にすばやく変換できます。

ビッグデータ・プラットフォーム

ビッグデータ・プラットフォームは、ビッグデータの量と多様性を処理するために必要なツールとスケーリング機能を提供することで、大規模で複雑なデータ・セットのラングリングをサポートします。Apache HadoopやApache Sparkなどのプラットフォームは、大規模なデータセットのラングリングに使用されます。これらのプラットフォームは、ビッグデータ技術を使用して、情報を高品質な分析と意思決定において使用できる形式に変換します。

AI（人工知能）

AIは、自動化と高度な分析を通じてデータ・ラングリングをサポートします。機械学習のモデルとアルゴリズムは、外れ値の検出やスケーリングなどの問題の解決に役立つ可能性があります。他のAIツールは、大規模なデータ・セットを迅速に処理し、リアルタイムのトランスフォーメーションを処理し、クリーニング作業を導くパターンを認識できます。自然言語処理（NLP）インターフェースを使用すると、ユーザーはデータを直感的に操作できるため、技術的な障壁が軽減される場合があります。