データ取り込みとは

2024年6月26日

執筆者

Tim Mucci

IBM Writer

Gather

データ取り込みとは

データ取り込みとは、さまざまなソースからデータ・ファイルを収集し、データベースにインポートして、保存、処理、分析するプロセスです。データ取り込みの目的は、データをクリーンアップしてアクセス可能で一貫性のある一元管理型リポジトリーに保存し、組織内で使用できるように準備することです。

データ・ソースには、金融システム、サード・パーティーのデータ・プロバイダー、SNSプラットフォーム、IoTデバイス、SaaSアプリケーション、エンタープライズ・リソース・プランニング(ERP)や顧客関係管理(CRM)などのオンプレミス・ビジネス・アプリケーションが含まれます。

これらのソースには、構造化データと非構造化データの両方が含まれます。取り込まれたデータは、データレイク、データウェアハウス、データレイクハウス、データ・マート、リレーショナル・データベース、ドキュメント・ストレージ・システムに保存できます。組織はデータを取り込んで、それをビジネス・インテリジェンス・タスクだけでなく、機械学習、予測モデリング、人工知能アプリケーションにも使用できるようにします。

多くのデータ取り込みツールは、このプロセスを自動化し、生データを適切な形式に整理して、データ分析ソフトウェアによる効率的な分析を実現します。データ取り込みには通常、データサイエンスとPythonなどのプログラミング言語に関する専門知識が必要です。データ取り込みデータは、抽出、変換、読み込み(ETL)プロセスまたは抽出、読み込み、変換プロセス(ELT)を使用してサニタイズされた後、統一された形式に変換され、データ・ライフサイクルにわたり効果的に管理されます。

多様で多数のビッグデータ・ソースがある場合、オートメーション・ソフトウェアは、特定の環境やアプリケーションに合わせて取り込みプロセスをカスタマイズするのに役立ちます。多くの場合、こうしたソフトウェアにはビジネス・インテリジェンスおよび分析プログラムを使用して、即時または後で分析するためのデータ準備機能が含まれます。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

データ取り込みが重要な理由

データ取り込みは、今日の企業が収集する大量のデータからデータを処理し、価値を引き出すための最初のステップです。適切に計画されたデータ取り込みプロセスは、分析エンジンに取り込まれるデータの正確性と信頼性を保護します。これは、データ担当チームがその役割を効果的に実行するのに欠かせません。データ取り込みが不可欠な理由は3つあります。

動的なデータ・ランドスケープに柔軟性を提供

現代のビジネスでは多様なデータ・エコシステムが使用されています。各ソースには独自の形式と構造があります。効果的なデータ取り込みプロセスにより、さまざまなソースからデータを取り込むことができ、業務、顧客、市場動向をより包括的に把握できるようになります。新しいデータ・ソースが絶えず出現しており、生成されるデータの量と速度は増加し続けています。適切に設計されたデータ取り込みプロセスはこれらの変更に対応し、データ・アーキテクチャーの堅牢性と適応性を維持します。

強力な分析を実現

データを取り込むための堅牢なプロセスがなければ、企業は詳細な分析に必要な膨大なデータセットを収集して準備することができません。組織はこれらの分析を使用して特定のビジネス上の問題に対処し、データから得られた洞察を実行可能な推奨事項に変換します。

データ品質の向上

エンリッチメント・プロセスには、データの一貫性と正確性を保証するためのさまざまな検証とチェックが組み込まれています。これには、データのクレンジング、破損したデータ・ポイント、不正確なデータ・ポイント、または無関係なデータ・ポイントの識別と削除が含まれます。データ取り込みにより、標準化、正規化、強化を通じてデータ変換が容易になります。標準化はデータが一貫した形式に準拠していることを証明し、正規化は冗長性を排除します。エンリッチメントは、既存のデータ・セットに関連情報を追加し、より多くのコンテキストと深さを提供し、最終的には分析用データの価値を高めます。

データ取り込みパイプライン

データ取り込みとは、さまざまなソースから生データを取得し、分析用に準備するプロセスです。この複数ステップのパイプラインにより、データは、アクセス可能で、正確で、一貫性があり、ビジネス・インテリジェンスに使用可能であることが保証されます。これは、SQLベースの分析やその他の処理ワークロードをサポートするために不可欠です。

データ検出:組織全体で利用可能なデータを特定する探索段階。データの状況、構造、品質、潜在的な用途を理解することが、データ取り込みを成功させる基盤となります。

データ取得:データ・ソースが特定されると、データ取得ではデータの収集が行われます。これには、構造化データベースやアプリケーション・プログラミング・インターフェース(API)から、スプレッドシートや紙の文書などの非構造化形式まで、さまざまなソースからデータを取得することが含まれます。さまざまなデータ形式と潜在的に大量のデータを処理し、取得プロセス全体を通じてデータの一貫性を保護することは複雑な作業です。

データ検証:取得したデータは、検証によってその正確性と一貫性が保証されます。データにエラー、不整合、欠損値がないかチェックされます。データは、データ型の検証、範囲の検証、一意性の検証などのさまざまなチェックを通じてクリーンアップされ、信頼性が高まり、さらに処理する準備が整います。

データ変換:ここでは、検証されたデータが分析に適した形式に変換されます。これには、正規化(冗長性の削除)、集約(データの要約)、標準化(一貫したフォーマット)が含まれる場合があります。その目的は、データを理解し、分析しやすくすることです。

データの読み込み:最後のステップでは、変換されたデータが指定された場所(通常はデータウェアハウスまたはデータレイク)に配置され、分析やレポート作成にすぐに使用できるようになります。この読み込みプロセスは、特定のニーズに応じて、バッチまたはリアルタイムで実行できます。データの読み込みは、データ取り込みパイプラインの完了を意味します。この段階で、データが準備され、情報に基づいた意思決定と貴重なビジネス・インテリジェンスの生成の準備が整います。

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

一般的なデータ・クレンジング手法

データ取り込みでは、その品質を確保することが最も重要です。

  • 欠損値の処理:ここでの作業には、補完(欠損値を統計的尺度で置き換える)、削除(欠損値がデータセットのごく一部を占めるレコードまたはフィールドを削除する)、予測(機械学習アルゴリズムを使用して、他の利用可能なデータに基づいて欠損値を予測および補完する)などがあります。
  • 外れ値の識別と修正:一般的な手法には、外れ値を検出するためのZスコアや四分位範囲(IQR)法などの統計的手法が含まれます。ボックス・プロットや散布図などの視覚化ツールと、対数または平方根変換を適用して外れ値の影響を軽減します。
  • データ形式の標準化:標準化により、データセット全体の一貫性が確保され、分析が容易になります。これには、統一されたデータ型、正規化、およびコード・マッピングなどがあります。

データ・ガバナンスとデータ品質維持におけるその役割

データ・ガバナンスは、データ処理に関するポリシーと標準を確立することで、取り込み中のデータ品質を維持するのに役立ちます。これにより、役割と責任が明確となることで、説明責任が確保されます。問題を追跡して対処するための指標と監視システムを導入し、GDPRやHIPAAなどの規制への準拠を促進し、データの定義と形式を標準化することで一貫性を促進します。

合理化されたデータ取り込みプロセスによるビジネス上のメリット

データ取り込みにより、データのサイロ化が解消され、組織内で情報を必要とするすべての人がすぐに情報を利用できるようになります。データ収集を自動化し、クラウド・ストレージを使用することで、データ取り込みによってデータのセキュリティーが強化され、貴重な洞察へのアクセスが確保されます。

データの民主化の強化

データ取り込みによりデータのサイロ化が解消され、さまざまな部門や機能領域で情報を容易に利用できるようになります。これにより、企業のデータ・エコシステムから得られた洞察を誰もが活用できる、データ駆動型文化が育まれます。

データ管理の合理化

データ取り込みにより、さまざまな形式と構造を持つさまざまなソースからデータを収集してクレンジングするという、複雑なタスクが簡素化されます。企業は、このデータを一元化されたシステム内で一貫した形式にまとめることで、データ管理プロセスを合理化できます。

高速かつ大容量のデータ処理

効果的な低遅延のデータ取り込みパイプラインは、リアルタイムの取り込みを含め、大量のデータを高速で処理できます。

コスト削減と効率性の向上

企業は、データ取り込みを通じてデータの収集とクレンジングを自動化することで、従来は手動のデータ集約プロセスに必要だった時間とリソースを削減します。また、サービスとしてのデータ取り込みソリューションは、インフラストラクチャーの先行投資の必要性を排除することで、コスト面でのさらなるメリットを提供できます。

成長を許容する拡張性

適切に設計されたデータ取り込みプロセスにより、あらゆる規模の企業が、増え続けるデータ量を処理および分析できるようになります。成長軌道にある企業にとって、拡張性は不可欠です。データの急増を簡単に管理できる企業は、データ環境が拡大しても貴重な洞察を活用し続けることができます。

クラウドベースのアクセシビリティー

生データ用のクラウド・ストレージを使用することで、データ取り込みソリューションは、必要なときにいつでも膨大な情報セットに簡単かつ安全にアクセスできるようにします。これにより、物理ストレージの制限の制約がなくなり、企業はいつでもどこでもデータを使用できるようになります。

データ取り込み、ETL、ELTの比較

データ取り込み、抽出、変換、読み込み(ETL)と抽出、読み込み、変換(ELT)は共通の目的を果たしますが、アプローチが異なります。

  • データ取り込み:データ取り込みには、さまざまなソースからデータを収集、抽出、転送してさらに処理または保存するためのすべてのツールとプロセスが含まれます。
  • ETL: 抽出、変換、読み込みは、ソース・システムからデータを抽出し、ターゲット・システムの要件を満たすように変換するプロセスです。そして、それを指定されたデータウェアハウスまたはデータレイクで読み込ませます。
  • ELT: 抽出、読み込み、変換は、ソースからデータを抽出するプロセスです。未加工データはターゲット・システムで読み込ませ、特定の分析の必要に応じてオンデマンドで変換されます。ELTはクラウドプラットフォームの機能を活用して、大量の生データを処理し、効率的に変換を実行します。

データ取り込みとデータ統合

データ取り込みとデータの統合は、データ・パイプライン内で異なる目的を果たします。

データ取り込み:さまざまなソースからのデータのエントリー・ポイントとして機能します。主な関心事は、データの元の構造を維持するための変換を最小限に抑えながら、データを正常に転送することです。

データ統合:複数のソースからのデータを変換および統合してから、ターゲット・システム(通常はデータウェアハウスまたはデータレイク)に送ることに重点を置いています。データ統合には、データセット全体の一貫性と正確性を確保するためのデータのクレンジング、標準化、強化が含まれる場合があります。

データ取り込みの種類

データ取り込みには、各種ソースからデータを指定されたシステムに取り込むための多種多様な方法があります。

バッチ処理

この取り込み方法では、特定の期間(毎日の売上レポート、毎月の財務諸表)にわたってデータを蓄積してから、それを全体的に処理します。一括処理は、オフピーク時間にスケジュールできるため、シンプルかつ信頼性が高く、システム・パフォーマンスへの影響が最小限であることで知られています。ただし、リアルタイム・アプリケーションには適していません。

リアルタイムのデータ取り込み

この方法では、データが生成された瞬間に取り込まれるため、即時の洞察と迅速な意思決定が可能になり、その場での分析と対応が可能になります。この方法は、即時の意思決定が最も重要となる不正検出や株式取引プラットフォームなど、即時の対応が重要なアプリケーションに最適です。

ストリーム処理

ストリーム処理は、取り込まれたデータを取得して、到着時に継続的に分析するという点を除いて、リアルタイム処理と非常によく似ています。リアルタイム処理とストリーム処理の両方で、かなりの計算能力とネットワーク帯域幅リソースが必要になります。

マイクロバッチ処理

マイクロバッチ方式は、一括処理とリアルタイム処理のバランスをとります。データを小規模かつ頻繁に一括処理で取り込み、本格的なリアルタイム処理のリソース制約なしに、ほぼリアルタイムの更新を提供します。データの鮮度とシステム・パフォーマンスのトレードオフを最適化するには、慎重な計画と管理が必要です。

ラムダ・アーキテクチャー

この取り込み方法は、バッチ処理とリアルタイム処理の両方を組み合わせ、それぞれの長所を活用して、データ取り込みのための包括的なソリューションを提供します。Lambdaアーキテクチャーにより、大量の履歴データを処理しながら、同時にリアルタイムのデータ・ストリームを処理することができます。

データ取り込みツール

データ取り込みツールは、さまざまなニーズと技術的専門知識に対応する多様なソリューションを提供します。

オープンソース・ツール:ソフトウェアのソース・コードに無料でアクセスでき、ユーザーがツールを完全に管理し、カスタマイズできるツールです。

独自ツール:ソフトウェア・ベンダーによって開発およびライセンス供与されるソリューションです。あらかじめ構築された機能とさまざまな価格プランが提供されますが、他のベンダーに変えることが難しくなるベンダー・ロックインや、ライセンスの継続コストが発生する可能性があります。

クラウドベースのツール: クラウド環境内に収容された取り込みツール。導入と保守を簡素化し、インフラストラクチャーへの事前投資を必要とせずに拡張性を確保します。

オンプレミス・ツール:これらのツールは、ローカルまたはプライベートクラウド・ネットワークにインストールおよび管理され、データ・セキュリティーをより厳密に管理できますが、ハードウェアへの投資と継続的な IT サポートが必要です。

ニーズと専門知識のバランスを取りながら、データ取り込みパイプラインを構築するためのアプローチはいくつかあります。

手動でコーディングされたパイプライン:これらのカスタム・パイプラインは最大限の管理を提供しますが、高度な開発に関する専門知識が必要です。

事前に構築されたコネクターと変換ツール:このアプローチはユーザーフレンドリーなインターフェースを提供しますが、複数のパイプラインを管理する必要があります。

データ統合プラットフォーム:このプラットフォームは、データ・ジャーニーのすべての段階に包括的なソリューションを提供しますが、セットアップと保守には開発の専門知識が必要です。

DataOps:このアプローチは、データ・エンジニアとデータ・コンシューマー間のコラボレーションを促進し、データ取り込みプロセスの一部を自動化して貴重な時間を節約することを目的としています。

データ取り込みの課題

データ・パイプラインの基本であるとはいえ、データ取り込みプロセスには複雑さが伴います。

データ・セキュリティー:露出度が増すと、機密データのセキュリティー侵害のリスクが高まります。データ・セキュリティー規制を遵守すると、複雑さとコストが増加します。

規模と多様性:データの量、速度、多様性がますます増大するため、パフォーマンスのボトルネックが発生する可能性があります。

データの断片化:不整合があると、データ分析作業が妨げられ、統一されたデータ・ビューの作成が複雑になる可能性があります。ターゲット・システムで更新しないままソース・データを変更すると、スキーマ・ドリフトが発生し、ワークフローが中断される可能性があります。

データ品質保証:データ取り込みプロセスの複雑さにより、データの信頼性が損なわれる可能性があります。

データ取り込みのユースケースとアプリケーション

データ取り込みは、組織内のデータの潜在能力を最大限に活用するのに欠かせません。

クラウド・データレイクの取り込み

データ取り込みソリューションにより、企業はさまざまなデータを収集し、一元管理型クラウド・データレイクのターゲット・システムに転送できます。このシナリオでは、エラーが発生すると下流における分析やAIや機械学習イニシアチブにおけるデータの価値と信頼性が損なわれる可能性があるため、高品質なデータ取り込みが極めて重要になります。

クラウドのモダナイゼーション

高度な分析やAIイニシアチブのためにクラウドに移行する組織は、レガシー・データ、サイロ化されたデータ・ソース、増大するデータ量、速度、複雑さに関連する課題に直面することがよくあります。最新のデータ取り込みソリューションでは、データベース、ファイル、ストリーミング・ソース、アプリケーションからデータを取り込むプロセスを効率化する、コード不要のウィザードが提供されることがよくあります。

データ取り込みソリューションは、オンプレミスのデータベース、データウェアハウス、メインフレーム・コンテンツをクラウドベースのデータウェアハウスに大量移行できるようにすることで、データウェアハウスの近代化を加速できます。データ取り込みにChange Data Capture(CDC)技術を使用すると、クラウド・データウェアハウスが常に最新の情報で更新されます。

リアルタイム分析

データ・ストリームをリアルタイムで処理することで、新たな収益機会が生まれます。例えば、通信会社はリアルタイムの顧客データを活用して、販売およびマーケティング・ストラテジーを最適化できます。同様に、IoTセンサーから収集されたデータは、運用効率を高め、リスクを軽減し、貴重な分析情報を生み出すことができます。

データ取り込みツールは、リアルタイム分析のパワーを最大限に引き出すために、リアルタイム・ストリーミング・データ(クリックストリーム・データ、IoTセンサー・データ、マシン・ログ、SNSフィード)をメッセージ・ハブまたはストリーミング・ターゲットにシームレスに統合し、イベント発生時にリアルタイムのデータ処理を可能にします。

関連ソリューション
IBM StreamSets

直感的なグラフィカル・インターフェースでスマートなストリーミング・データ・パイプラインを作成、管理できるため、ハイブリッド環境やマルチクラウド環境でのシームレスなデータ統合を促進します。

StreamSetsの詳細はこちら
IBM Databand

データ・パイプライン用の可観測性ソフトウェア、IBM Databandをご紹介します。メタデータを自動的に収集して履歴ベースラインを構築し、異常を検知し、データ品質の問題を修復するためのワークフローを作成できます。

Databandはこちら
データ統合ソリューション

IBMのデータ統合ソリューションを活用して、生成AIへの取り組み、リアルタイム分析、ウェアハウスのモダナイゼーション、運用上のニーズに合わせて、レジリエンスがあり高性能でコスト最適化されたデータ・パイプラインを構築しましょう。

データ統合ソリューションの詳細はこちら
次のステップ

データ・パイプラインの設計、開発、デプロイのための視覚的なインターフェースを提供するETL(抽出、変換、格納)ツール、IBM DataStageをご紹介します。IBM Cloud上でのマネージドSaaSやセルフホスティングとして、またはIBM Cloud Pak for Dataへのアドオンとして利用できます。

データステージを探索 分析サービスの詳細はこちら