データ変換とは

バランガルー建設現場の航空写真

データ変換とは

データ変換は、データ統合プロセスの重要な部分であり、未加工データを統一された形式または構造に変換します。データ変換により、ターゲット・システムとの互換性が確保され、データ品質と使いやすさが向上します。これは、データ・ラングリング、データ分析、データウェアハウスなど、データ管理プラクティスに不可欠な側面です。

専門家は手動でデータ変換を実現できますが、現代のエンタープライズ・アプリケーションを動かすために必要な大量のデータには通常、ある程度の自動化が必要です。データを変換するプロセスを通じて展開されるツールやテクノロジーは、単純なものもあれば複雑なものもあります。

例えば、データ変換は、日付フィールド(MM/DD/YY など)を別のフィールドに変換したり、Excelの1つの列を2つに分割したりするのと同じくらい簡単かもしれません。しかし、複雑なデータ変換になると、複数の異種ソースからのデータをクリーンにして標準化する作業があり、複数のワークフローで構成されるため、高度なデータサイエンス・スキルが必要になることがあります。

これらの高度なデータ・エンジニアリング機能には、データ・ポイント間の関係を定義するデータ正規化や、既存の情報をサードパーティーのデータ・セットで補完するデータ・エンリッチメントが含まれます。

今日のデジタル・ファーストのグローバル経済では、データ変換により、組織はさまざまなソースからの大量のデータを、サービスの向上、機械学習モデルのトレーニング、ビッグデータ分析の展開に利用することができます。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

データ変換のユースケース

データ変換は、データ・セットを標準化し、その後の処理に備えることで、いくつかの重要な企業データ・プラクティスを可能にします。ビジネスの世界においてデータ変換を行う一般的な理由は、次のとおりです。

ビジネス・インテリジェンス(BI)

組織は、リアルタイム・ダッシュボードや予測レポートなどのビジネス・インテリジェンス・アプリケーションで使用するためにデータ変換を行い、膨大な量の情報を考慮に入れたデータ駆動型の意思決定を可能にします。

データウェアハウジング

データ変換は、データウェアハウスまたはデータレイクでの保存と管理のためにデータを準備し、効率的なクエリーと分析を容易にします。

機械学習

機械学習モデルには、クリーンで整理されたデータが必要です。データを正しい形式で信頼できるものにすることで、組織は人工知能(AI)ツールのトレーニングやチューニングにデータを使用できるようになります。

ビッグデータ分析

ビッグデータを分析して、ビジネス・インテリジェンス、市場調査、その他の用途に使用する前に、適切に照合してフォーマットする必要があります。

データ・マイグレーション

古いオンプレミスのシステムからクラウド・データウェアハウスやデータレイクハウスなどの最新のプラットフォームにデータを移動するには、多くの場合、複雑なデータ変換が必要になります。

データ変換プロセス

データ変換は通常、構造化されたプロセスに従い、未加工の状態から使用可能で価値のあるデータを生成します。データ変換プロセスの一般的な手順は次のとおりです。

1. データ検出

検出プロセス中に、ソース・データが収集されます。このプロセスには、API、SQL Database、または異種形式の内部ファイルからの未加工データのスクレイピングが含まれる場合があります。この情報を特定して抽出する際、データ専門家は、収集された情報が包括的であり、最終的な用途に関連したものであることを確認します。検出時に、エンジニアはデータ・プロファイリングと呼ばれるプロセスで、データの特性と構造も理解し始めます。

2. データ・クリーニング

データ準備とクリーニングでは、未加工データのエラー、矛盾、不正確さを特定して修正する必要があります。この手順では、重複や外れ値を削除したり、欠損値を処理したりすることで、データ品質および信頼性を確保します。

3. データ・マッピング

データ・マッピングには、変換プロセスをガイドするスキーマまたはマッピング・プロセスの作成が含まれます。このプロセスで、データ・エンジニアは、ソース・システムの要素がターゲット・フォーマットの特定の要素にどのように対応するかを定義します。

4. コードの生成

この手順では、サードパーティー・ツールを使用するか、内部でコードを生成することで、データを変換するコードを作成します。

5. コードの実行と検証

この段階では、コードが未加工データに適用されるときに実際の変換が行われます。変換されたデータはターゲット・システムに読み込まれ、さらに分析または処理されます。次に、変換されたデータとデータ・モデルが検証され、一貫性と正確性が確認されます。

6. レビュー

レビュー・プロセスでは、データ・アナリスト、エンジニア、またはエンドユーザーが出力データをレビューし、要件を満たしていることを確認します。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

ETLデータ変換とELTデータ変換の比較

ETL(抽出、変換、ロード)とELT(抽出、ロード、変換)は、頻繁に使用される2つのデータ変換プロセスで、展開するデータ・パイプライン技法がわずかに異なります。それぞれ、変換の規模と複雑さに応じて長所と短所があります。

抽出、変換、ロード:ステージング領域でのデータ変換

ETLプロセスでは、構造化データの既定のサブセットがソースから抽出され、ターゲット・システムにロードされる前に、ステージング領域または2次処理サーバーで変換されます。ETLは、オンプレミスのストレージや小規模なデータ・セットに適しています。ただし、より厳格なデータ・クリーニングと検証の手順を導入できるため、特定のデータ品質と一貫性が求められるシナリオにおいて、ETLの方が望ましい場合もあります。また、ETLは、HIPAAで保護された情報などの機密データを保護するために、移行中に必要になることもあります。

抽出、ロード、変換:クラウドでのデータの変換

ELTプロセスでは、情報はデータ・ソースから抽出され、クラウドベースのターゲット・システムにロードされ、そこで変換されます。このアプローチはクラウド・コンピューティングのパワーを活用するため、通常、より高速な処理とよりアジャイルなデータ管理が可能になります。また、画像などの非構造化データにも使用できます。クラウドベースのコンピューティングとストレージ・パワーの利点により、ELTプロセスでは拡張性の向上も見られます。

データ変換の種類

データサイエンティストとエンジニアは、データ変換プロセス全体で、いくつかの異なる手法を使用します。どの手法を用いるかは、プロジェクトとデータの使用目的によって異なりますが、複雑なプロセスの一部として、いくつかの手法が併用されることもあります。

  • データ・クリーニング: データ・クリーニングは、重複レコードの排除など、エラーや不整合を修正することでデータ品質を向上させます。
  • データ集約:データ集約は、複数のレコードを1つの値またはデータ・セットにまとめることによってデータを要約します。
  • データ正規化:データ正規化はデータを標準化し、すべての値を1から10までの数値のような共通の尺度や形式にします。
  • データ・エンコーディング:データ・エンコーディングは、カテゴリー・データを数値フォーマットに変換して、分析を容易にします。例えば、データ・エンコーディングでは、データの各カテゴリーに一意の番号を割り当てる場合があります。
  • データ・エンリッチメント:データ・エンリッチメントは、第三者の人口統計データや関連するメタデータなど、外部ソースから関連情報を追加することでデータを強化します。
  • データ・インピュテーション:データ・インピュテーションは、欠損データを妥当な値に置き換えます。例えば、欠損値を中央値や平均値に置き換えたりします。
  • データ分割:データ分割は、データを異なる目的のためにサブセットに分割します。例えば、エンジニアはデータ・セットを分割して、一方を機械学習のトレーニング用に、もう一方をテスト用に使用する場合があります。
  • データの離散化:データの離散化では、データを離散的なバケットまたは区間に変換します。一例として、医療現場では、患者の年齢などのデータを「幼児」や「成人」といったカテゴリーに変換するために、離散化が使用される場合があります。
  • データの一般化:データの一般化は、大規模なデータ・セットをより高いレベル、または要約の形に抽象化することで、詳細情報を減らし、データを理解しやすくします。
  • データの可視化:データの可視化は、データをグラフィカルに表現し、すぐにはわからないパターンや洞察を明らかにします。

データ変換ツール

社内のエンジニアだけでデータ変換を実行することは可能ですが、多くのサードパーティー・サービスが変換および移行プロセスの円滑化を支援しています。最も一般的なものは次のとおりです。

  • ETLおよびELTツール:Apache NiFiやInformaticaなどのツールは、プラグ・アンド・プレイETLまたはELTプロセスを促進します。
  • データ統合プラットフォーム:IBM® Cloud Pak for Dataなどの多数のツールが、データ統合とリアルタイム処理をサポートします。
  • データ準備ツール:これらのツールは、データ変換やデータ移行の前に、データ・クリーニングと変換を行うために特別に設計されています。
  • プログラミング言語:PythonやRなどのプログラミング言語と、オープンソースのpandasなどのライブラリーは、データ変換のための堅牢な機能を提供します。

データ変換のメリット

データ変換は、データ処理における重要なステップです。これにより、組織の分析、報告、意思決定、保存の能力が向上します。主要なメリットには以下のようなものがあります。

データ品質の向上

データ変換には、データ・セットの全体的な品質を向上させる、データ・クリーニングなどのプロセスが含まれます。より優れたデータと明確に定義されたデータ・アーキテクチャーにより、組織は在庫管理や注文処理などの分野で運用効率を向上させることができます。また、より優れたデータは顧客体験を改善し、現在の消費者と潜在的な消費者をあらゆる角度から把握することができます。

データの互換性と統合の強化

データ変換により、データ形式と構造が標準化されるため、情報を一貫性のあるデータ・セットに統合しやすくなります。データのサイロ化を解消し、異なる部門やシステムからの情報を統合することで、矛盾を排除し、ビジネスを統一的に把握できます。

データの可視化の改善

通常、変換されたデータはより整理され、構造化されているため、インサイトを効果的に伝える意味のある形で可視化しやすくなります。可視化は、意思決定者がトレンドや機会を特定するのに役立ち、販売や調達のパイプラインのような重要なデータをほぼリアルタイムで表示できます。

データ・アクセシビリティーの向上

データ変換は、複雑なデータまたは非構造化データを、理解、アクセス、分析しやすい形式に変換します。組織は、このようなデータを使用して、高度な市場予測を作成したり、改善すべき分野を特定したりできます。

セキュリティーとコンプライアンスの強化

データ変換には、データの匿名化や暗号化、機密情報の保護、プライバシー規制の遵守などが含まれます。このようなセキュリティーは、医療や金融などの規制の厳しい業界や、個人情報保護法が異なる複数の地域で事業を展開する組織にとって、依然として最優先事項です。

拡張性と柔軟性の向上

変換されたデータは、多くの場合、より柔軟で、より単純に合理化されるため、新しいユースケースへの適応や、データ量の増加に伴うデータ処理の拡張が容易になります。スケーラブルなデータにより、コストのかかる再編成やIT導入を何度も行うことなく、組織の成長が可能になります。

関連ソリューション
データ管理ソフトウェアとソリューション

データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。

データ管理ソリューションの詳細はこちら
IBM watsonx.data

watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。

watsonx.dataについてはこちら
データ分析コンサルティングサービス

IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。

分析サービスを発見する
次のステップ

データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。

データ管理ソリューションの詳細はこちら watsonx.dataについてはこちら