データ変換とは

データ変換とは

データ変換は、データ統合プロセスの重要な部分であり、未加工データを統一された形式または構造に変換します。データ変換により、ターゲット・システムとの互換性が確保され、データ品質と使いやすさが向上します。これは、データ・ラングリング、データ分析、データウェアハウスなど、データ管理プラクティスに不可欠な側面です。

専門家は手動でデータ変換を実現できますが、現代のエンタープライズ・アプリケーションを動かすために必要な大量のデータには通常、ある程度の自動化が必要です。データを変換するプロセスを通じて展開されるツールやテクノロジーは、単純なものもあれば複雑なものもあります。

例えば、データ変換は、日付フィールド（MM/DD/YY など）を別のフィールドに変換したり、Excelの1つの列を2つに分割したりするのと同じくらい簡単かもしれません。しかし、複雑なデータ変換になると、複数の異種ソースからのデータをクリーンにして標準化する作業があり、複数のワークフローで構成されるため、高度なデータサイエンス・スキルが必要になることがあります。

これらの高度なデータ・エンジニアリング機能には、データ・ポイント間の関係を定義するデータ正規化や、既存の情報をサードパーティーのデータ・セットで補完するデータ・エンリッチメントが含まれます。

今日のデジタル・ファーストのグローバル経済では、データ変換により、組織はさまざまなソースからの大量のデータを、サービスの向上、機械学習モデルのトレーニング、ビッグデータ分析の展開に利用することができます。

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

データ変換のユースケース

データ変換は、データ・セットを標準化し、その後の処理に備えることで、いくつかの重要な企業データ・プラクティスを可能にします。ビジネスの世界においてデータ変換を行う一般的な理由は、次のとおりです。

ビジネス・インテリジェンス（BI）

組織は、リアルタイム・ダッシュボードや予測レポートなどのビジネス・インテリジェンス・アプリケーションで使用するためにデータ変換を行い、膨大な量の情報を考慮に入れたデータ駆動型の意思決定を可能にします。

データウェアハウジング

データ変換は、データウェアハウスまたはデータレイクでの保存と管理のためにデータを準備し、効率的なクエリーと分析を容易にします。

機械学習

機械学習モデルには、クリーンで整理されたデータが必要です。データを正しい形式で信頼できるものにすることで、組織は人工知能（AI）ツールのトレーニングやチューニングにデータを使用できるようになります。

ビッグデータ分析

ビッグデータを分析して、ビジネス・インテリジェンス、市場調査、その他の用途に使用する前に、適切に照合してフォーマットする必要があります。

データ・マイグレーション

古いオンプレミスのシステムからクラウド・データウェアハウスやデータレイクハウスなどの最新のプラットフォームにデータを移動するには、多くの場合、複雑なデータ変換が必要になります。

データ変換プロセス

データ変換は通常、構造化されたプロセスに従い、未加工の状態から使用可能で価値のあるデータを生成します。データ変換プロセスの一般的な手順は次のとおりです。

1. データ検出

検出プロセス中に、ソース・データが収集されます。このプロセスには、API、SQL Database、または異種形式の内部ファイルからの未加工データのスクレイピングが含まれる場合があります。この情報を特定して抽出する際、データ専門家は、収集された情報が包括的であり、最終的な用途に関連したものであることを確認します。検出時に、エンジニアはデータ・プロファイリングと呼ばれるプロセスで、データの特性と構造も理解し始めます。

2. データ・クリーニング

データ準備とクリーニングでは、未加工データのエラー、矛盾、不正確さを特定して修正する必要があります。この手順では、重複や外れ値を削除したり、欠損値を処理したりすることで、データ品質および信頼性を確保します。

3. データ・マッピング

データ・マッピングには、変換プロセスをガイドするスキーマまたはマッピング・プロセスの作成が含まれます。このプロセスで、データ・エンジニアは、ソース・システムの要素がターゲット・フォーマットの特定の要素にどのように対応するかを定義します。

4. コードの生成

この手順では、サードパーティー・ツールを使用するか、内部でコードを生成することで、データを変換するコードを作成します。

5. コードの実行と検証

この段階では、コードが未加工データに適用されるときに実際の変換が行われます。変換されたデータはターゲット・システムに読み込まれ、さらに分析または処理されます。次に、変換されたデータとデータ・モデルが検証され、一貫性と正確性が確認されます。

6. レビュー

レビュー・プロセスでは、データ・アナリスト、エンジニア、またはエンドユーザーが出力データをレビューし、要件を満たしていることを確認します。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

エピソードに移動

ETLデータ変換とELTデータ変換の比較

ETL（抽出、変換、ロード）とELT（抽出、ロード、変換）は、頻繁に使用される2つのデータ変換プロセスで、展開するデータ・パイプライン技法がわずかに異なります。それぞれ、変換の規模と複雑さに応じて長所と短所があります。

抽出、変換、ロード：ステージング領域でのデータ変換

ETLプロセスでは、構造化データの既定のサブセットがソースから抽出され、ターゲット・システムにロードされる前に、ステージング領域または2次処理サーバーで変換されます。ETLは、オンプレミスのストレージや小規模なデータ・セットに適しています。ただし、より厳格なデータ・クリーニングと検証の手順を導入できるため、特定のデータ品質と一貫性が求められるシナリオにおいて、ETLの方が望ましい場合もあります。また、ETLは、HIPAAで保護された情報などの機密データを保護するために、移行中に必要になることもあります。

抽出、ロード、変換：クラウドでのデータの変換

ELTプロセスでは、情報はデータ・ソースから抽出され、クラウドベースのターゲット・システムにロードされ、そこで変換されます。このアプローチはクラウド・コンピューティングのパワーを活用するため、通常、より高速な処理とよりアジャイルなデータ管理が可能になります。また、画像などの非構造化データにも使用できます。クラウドベースのコンピューティングとストレージ・パワーの利点により、ELTプロセスでは拡張性の向上も見られます。

データ変換の種類

データサイエンティストとエンジニアは、データ変換プロセス全体で、いくつかの異なる手法を使用します。どの手法を用いるかは、プロジェクトとデータの使用目的によって異なりますが、複雑なプロセスの一部として、いくつかの手法が併用されることもあります。

データ・クリーニング： データ・クリーニングは、重複レコードの排除など、エラーや不整合を修正することでデータ品質を向上させます。

データ集約：データ集約は、複数のレコードを1つの値またはデータ・セットにまとめることによってデータを要約します。

データ正規化：データ正規化はデータを標準化し、すべての値を1から10までの数値のような共通の尺度や形式にします。

データ・エンコーディング：データ・エンコーディングは、カテゴリー・データを数値フォーマットに変換して、分析を容易にします。例えば、データ・エンコーディングでは、データの各カテゴリーに一意の番号を割り当てる場合があります。

データ・エンリッチメント：データ・エンリッチメントは、第三者の人口統計データや関連するメタデータなど、外部ソースから関連情報を追加することでデータを強化します。

データ・インピュテーション：データ・インピュテーションは、欠損データを妥当な値に置き換えます。例えば、欠損値を中央値や平均値に置き換えたりします。

データ分割：データ分割は、データを異なる目的のためにサブセットに分割します。例えば、エンジニアはデータ・セットを分割して、一方を機械学習のトレーニング用に、もう一方をテスト用に使用する場合があります。

データの離散化：データの離散化では、データを離散的なバケットまたは区間に変換します。一例として、医療現場では、患者の年齢などのデータを「幼児」や「成人」といったカテゴリーに変換するために、離散化が使用される場合があります。

データの一般化：データの一般化は、大規模なデータ・セットをより高いレベル、または要約の形に抽象化することで、詳細情報を減らし、データを理解しやすくします。

データの可視化：データの可視化は、データをグラフィカルに表現し、すぐにはわからないパターンや洞察を明らかにします。

データ変換ツール

社内のエンジニアだけでデータ変換を実行することは可能ですが、多くのサードパーティー・サービスが変換および移行プロセスの円滑化を支援しています。最も一般的なものは次のとおりです。

ETLおよびELTツール：Apache NiFiやInformaticaなどのツールは、プラグ・アンド・プレイETLまたはELTプロセスを促進します。

データ統合プラットフォーム：IBM® Cloud Pak for Dataなどの多数のツールが、データ統合とリアルタイム処理をサポートします。

データ準備ツール：これらのツールは、データ変換やデータ移行の前に、データ・クリーニングと変換を行うために特別に設計されています。

プログラミング言語：PythonやRなどのプログラミング言語と、オープンソースのpandasなどのライブラリーは、データ変換のための堅牢な機能を提供します。

データ変換のメリット

データ変換は、データ処理における重要なステップです。これにより、組織の分析、報告、意思決定、保存の能力が向上します。主要なメリットには以下のようなものがあります。

データ品質の向上

データ変換には、データ・セットの全体的な品質を向上させる、データ・クリーニングなどのプロセスが含まれます。より優れたデータと明確に定義されたデータ・アーキテクチャーにより、組織は在庫管理や注文処理などの分野で運用効率を向上させることができます。また、より優れたデータは顧客体験を改善し、現在の消費者と潜在的な消費者をあらゆる角度から把握することができます。

データの互換性と統合の強化

データ変換により、データ形式と構造が標準化されるため、情報を一貫性のあるデータ・セットに統合しやすくなります。データのサイロ化を解消し、異なる部門やシステムからの情報を統合することで、矛盾を排除し、ビジネスを統一的に把握できます。

データの可視化の改善

通常、変換されたデータはより整理され、構造化されているため、インサイトを効果的に伝える意味のある形で可視化しやすくなります。可視化は、意思決定者がトレンドや機会を特定するのに役立ち、販売や調達のパイプラインのような重要なデータをほぼリアルタイムで表示できます。

データ・アクセシビリティーの向上

データ変換は、複雑なデータまたは非構造化データを、理解、アクセス、分析しやすい形式に変換します。組織は、このようなデータを使用して、高度な市場予測を作成したり、改善すべき分野を特定したりできます。

セキュリティーとコンプライアンスの強化

データ変換には、データの匿名化や暗号化、機密情報の保護、プライバシー規制の遵守などが含まれます。このようなセキュリティーは、医療や金融などの規制の厳しい業界や、個人情報保護法が異なる複数の地域で事業を展開する組織にとって、依然として最優先事項です。

拡張性と柔軟性の向上

変換されたデータは、多くの場合、より柔軟で、より単純に合理化されるため、新しいユースケースへの適応や、データ量の増加に伴うデータ処理の拡張が容易になります。スケーラブルなデータにより、コストのかかる再編成やIT導入を何度も行うことなく、組織の成長が可能になります。

カメラ、音量調整つまみ、クリップボードなど、複数のアイコンがらせん状に並んだ3Dレンダリング

組織のデータをAI対応にする方法については、データ・リーダー向けガイドをお読みください。

参考情報

AIエージェントはデータに基づいて動作します。あなたのAIエージェントは準備できていますか？

データは競争上の優位性です。この短時間のWebセミナーでは、安全な方法でAIを解き放ち、測定可能なROIを達成する方法を紹介します。

データ管理の説明

IBMのTechsplainersでは、主要な概念から実際のユースケースまで、AIのデータの基本を解説しています。分かりやすく短いエピソードで、基礎をすばやく学ぶことができます。

データを統合してアクセスし、AIの拡張を支援

AIに適したデータへの道が、多くの場合構造化データと非構造化データへの効果的なアクセスから始まる理由と、データ・リーダーを妨げる可能性のある課題をご確認ください。

法的なオーバーヘッドが戦略的な洞察に変わる

AI搭載の法律エージェントが、意思決定の迅速化、手作業の削減、コンプライアンスの向上にどのように役立つかをご覧ください。

AI Academy：エンタープライズAIのためのデータ・ストラテジーの構築

このエピソードでは、Cathy Reeseが、最高品質のデータ資産を活用することを要求する高度なAIに対応したデータ・ストラテジーを今日の組織が必要としていることを説明します。

AIのためのハイブリッドなオープン・データレイクハウス

データ・アクセスを簡素化し、データ・ガバナンスを自動化します。ワークロードのコスト最適化やAIと分析の拡張、場所を問わないあらゆるデータへのアクセスなど、データレイクハウス戦略をデータ・アーキテクチャーに統合するメリットをご覧ください。

2025年データ侵害のコストに関する調査

データ侵害による被害コストは過去最高を記録しています。サイバーセキュリティーの脅威と、それが組織に与える財務的影響について、最新の洞察を得ましょう。

カメラ、ボリューム・ノブ、クリップボードなどのいくつかのアイコンが2行表示された3Dレンダリング

データ・リーダー向けAI対応データのガイド

データ・リーダーがこれらの課題を克服し、信頼できるデータ基盤の基礎を確立し、AI向けに組織のデータを準備するための実行可能な手順を理解しましょう。

カメラ、ボリューム・ノブ、クリップボードなどを並べた複数のアイコンの3Dレンダリング

経営幹部が情報をインパクトに変える方法

データ・リーダー向けの業界横断レポートで、1,700人の最高データ責任者（CDO）から得たインサイトをご覧ください。