データ・オーケストレーションとは

指揮者がオーケストラを率いています。

データ・オーケストレーションの定義

データ・オーケストレーションとは、さまざまなシステム、プロセス、ツールにまたがるデータ・フローの管理と調整を指します。データの収集、取り込み変換統合保存など、データ・パイプラインのステージを整理し、合理化するのに役立ちます。

 

データ・オーケストレーション・プロセスが成功すると、情報はさまざまなターゲットの宛先に確実かつ効率的に流れ、到着時にデータ分析やその他の用途に使用できる状態になります。これらの中核的な機能により、ビッグデータのワークロードとデータ主導の意思決定の時代において、データ管理はクリティカルなプラクティスとなっています。

データ・エンジニアは、データの移動を合理化し、エンタープライズ・データ・イニシアチブの拡張性をサポートするために、データ・オーケストレーション・ツールとオーケストレーション・プラットフォームを活用しています。オートメーションは、多くの最新のデータ・オーケストレーション・ソリューションの中心となっています。これにより、データの統合や変換などのデータ・タスクを、人間の介入なしに論理的な順序で実行できます。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

企業がデータ・オーケストレーションを必要とする理由

増え続けるデータ量の力を活用するには、企業はますます複雑化するデータ・エコシステムをナビゲートする必要があります。多くの場合、データは異なるソースに由来し、データ形式も異なります。

また、世界中のデータレイクデータウェアハウスなど、クラウドベースとオンプレミスの両方のリポジトリーに一般的に保管されています。また、多くの組織では、営業チーム用のCRMシステム、マーケティング担当者用の分析プラットフォームなど、異なるチームや従業員によって異なるツールでデータが使用されています。ITおよび事業部門のリーダーを対象とした2024年のIDC調査によると、運用データは平均35の異なるシステムから供給され、18の異なる分析データリポジトリーに統合されています。1

このような複雑なデータ環境では、データのサイロ化、低品質データ、その他の問題が発生しやすく、データ・パイプラインのボトルネックとなり、下流の分析にエラーをもたらします。効果的なデータ・オーケストレーションは、企業がこれらの課題を克服し、データから価値を解き放つのに役立ちます。

データ・オーケストレーションのメリット

データ・オーケストレーションは、企業がデータを貴重な洞察、情報に基づいた意思決定、イノベーションに活用できるよう支援します。具体的には、以下のようなメリットがありました。

データ・サイロの解体

組織が大量の未加工データを収集すると、その多くはサイロ化されたデータになります。つまり、異種のシステムに閉じ込められ、限られた数のユーザーが知っており、利用できます。データ・オーケストレーションによって、多様なデータ・ソース間の接続が確立され、データ・サイロが排除されます。これにより、チームは社内で最も関連性が高く有用なデータにアクセスし、意思決定に役立てることができます。

データ品質の向上

データの不整合とデータの陳腐化は、データ品質を低下させる主な原因です。データ・オーケストレーションは、データ品質チェックやデータ変換やデータ検証を含むプロセスを自動化し、データ・ライフサイクル全体にわたる一貫性と新鮮さを向上させます。

柔軟性と拡張性の実現

組織がより多くのデータやさまざまなデータを収集する際、データ・オーケストレーションはデータ・ワークフローを適応させ、データ・プロセスを拡張するのに役立ちます。この柔軟性は、進化するニーズに対応し、望ましいビジネス成果を達成する上で極めて重要になります。

データの洞察を加速させる

データにアクセスできれば、組織はデータ分析をより迅速に実行し、洞察を得るまでの時間を短縮できます。さらに、最新のデータ・オーケストレーションにより、リアルタイムのデータ監視が可能になり、より迅速に問題を解決できるようになり、より信頼できるタイムリーなビジネス・インテリジェンスにつながります。

AIイノベーションのサポート

データ・オーケストレーションはAI対応データセットをサポートしており、つまりデータが人工知能(AI)機械学習(ML)パイプラインを支えるために必要な品質、アクセシビリティー、信頼基準を満たすことを実現しやすくします。

データ・ガバナンスとコンプライアンスの強化

データ・オーケストレーション・ソリューションには、時間の経過に伴うデータの変換とフローを追跡するデータ・リネージュ・ツールが含まれる場合があります。この機能は、データの監査証跡を提供し、データがデータ・ガバナンスポリシーと規制要件に従って保存・処理されていることを実現するのに役立ちます。

データチームの生産性を向上させる

データ・オーケストレーション(下記参照)によって反復的なデータ・タスクを自動化することで、データチームデータ・モデリングや分析など、より価値の高いタスクに集中できるようになります。さらに、自動化によって手作業のプロセスを減らすことで、人為的エラーのリスクを減らすことができます。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

データ・オーケストレーションとデータ統合の違い

データ・オーケストレーションとデータ統合は密接に関連していますが、同一の概念ではありません。どちらも分析ユースケース向けのデータの統合と一元化を可能にしますが、データ統合はよりきめ細かく、データ・オーケストレーションは包括的な実践です。

データ・オーケストレーションは、さまざまなシステムやプロセスを通じてデータの移動を最適化します。データ統合は、さまざまなソースからのデータを結合・統合し、ターゲットシステムにロードするために、さまざまな手法(抽出、変換、ロード、つまりETLなど)を使用するプロセスの一つです。

データ・オーケストレーションの3つのステップ

データ・オーケストレーションは、組織がデータ・エコシステムの非常に複雑な作業に取り組むのに役立ちます。この実践自体は、通常、次の3つの基本的なステップに分類されます。

  • 組織:データは社内外のさまざまなソースから収集され、多くの場合は一元的な場所で整理され、トランスフォーメーションの準備が整います。

  • 変換:未加工データを統一された形式に変換し、クリーニングと検証を行って一貫性と正確性を確認します。

  • アクティベーション:データは、分析、ダッシュボード・ツールへのルーティング、およびその他の目的で利用できるようになります。

主なデータ・オーケストレーション機能

データ・オーケストレーションの基本的なステップを支えるのは、いくつかの重要な機能です。その中には、以下のようなものがあります。

  • タスクの依存関係の定義とタスクの順序付け
  • データ・ワークフローの自動化
  • アラートの監視と送信

タスクの依存関係の定義とタスクの順序付け

データ・オーケストレーションは、多くの場合、データ処理タスクを定義し、データ・パイプラインとワークフローにおける実行順序を指定することから始まります。これにより、あるタスクが別のタスクの結果に依存する場合、後者のタスクが最初に完了するようにすることができます。このような依存関係に基づくタスクのシーケンスにより、組織はコストのかかるパイプラインの障害を回避できます。

タスクシーケンスを設計し整理するために、データ・エンジニアはしばしば有向非巡回グラフ、またはDAG(ノードが一方向の接続で結ばれ、サイクルを形成しないグラフ)を使用します。DAG内のさまざまなノードは、データ取り込みやデータ変換などのさまざまなデータ処理、およびそれらを実行するシーケンスを表すことができます。ノード接続のエッジは、プロセス間の依存関係を表します。

タスクの定義と順序付けにおいてDAGに代わる方法として、コード中心のアプローチがあります。一般的なコード中心のアプローチでは、オープンソースのプログラミング言語であるPythonを使用して、ワークフロー管理の関数を作成します。このアプローチは、多くの場合、動的なワークフローに対応するのに適していると一般的に考えられています。

データ・ワークフローの自動化

最新のデータ・オーケストレーションは、ETLELT(抽出、ロード、変換)、データウェアハウス内でのデータ変換など複数のデータ・ワークフローを自動化し、一貫性を確保し、人間の介入を最小限に抑えるか排除します。ユーザーは自動化されたデータ・タスクを開始できますが、次の3種類のトリガーを通じてタスクをスケジュールすることもできます。2

  • 時間ベースのトリガー:タスクは指定された間隔または時間で実行されます。

  • 依存関係ベースのトリガー:タスクは、他の指定タスクが完了した後にのみ実行されます。

  • イベント駆動型トリガー:API呼び出しなどの実際のシグナルによってタスクがアクティブ化されます。

アラートの監視と送信

データ・パイプラインの監視は、データ・オブザーバビリティーの実践と見なされることが多いですが、データが意図したとおりに流れ、処理されるようにすることで、データ・オーケストレーションでも貢献します。

組織はレイテンシースループットなどのパフォーマンス指標を含む複数の指標、CPUやメモリー使用量などのリソースの利用状況に関する指標、精度、完全性、一貫性といったデータ品質指標を監視できます。3

タスクの失敗など、データ・パイプラインの問題が検出されると、通知ツールがデータチームにタイムリーにアラートを送信するため、データチームは問題に迅速に対処できます。オーケストレーション・ソリューションでは、通知が配信される前に、問題を軽減するために再試行することもできます。つまり、失敗したタスクを指定された回数だけ自動的に再実行することができます。

データ・オーケストレーションと他の種類のオーケストレーションの比較

データ・オーケストレーションは、他の2種類のオーケストレーション、つまりワークフロー・オーケストレーションとプロセス・オーケストレーションと似ていますが、特に異なるものです。これらのプラクティスはどちらもデータ・オーケストレーションよりも広範囲であり、データ・オーケストレーションは両方の一種と考えることができます。
 
ワークフロー・オーケストレーションは、特定の結果を達成するために、一連の相互接続されたタスク、システム、ツールの調整と管理に重点を置いています。エンドツーエンドの実行とさまざまな環境にわたるワークフローの統合を重視し、依存関係を満たしながらタスクが正しい順序で実行されるようにします。

プロセス・オーケストレーションとは、複数のビジネス・プロセスを管理・統合することであり、多くの場合、ワークフローと人とシステムが関与します。ワークフロー管理に焦点を当てるのではなく、ビジネス・プロセス全体のエンドツーエンドの調整が必要となり、組織の目標との整合性が促進されます。

データ・オーケストレーション・プラットフォームとツール

組織やデータチームは、データ処理方法の合理化を目指すときにさまざまなデータ・オーケストレーション・ソリューションの中から選択できます。組織にとって最適なソリューションは、コスト(オープンソースと商用)などの特定の優先順位、オブザーバビリティーのニーズ、他の一般的なデータ・ソリューション(dbtなどの分析ツール、Snowflakeなどのクラウドベースのデータプラットフォーム)との統合によって変わります。

最も広く使用されているデータ・オーケストレーション・ツールとプラットフォームは通常、他のデータ・ソリューションに接続するためのオプションを提供しますが、その他の点で異なります。データ・オーケストレーション・ソリューションを以下に詳しく示します。

  • Apache Airflow
  • AWS Step Functions
  • Azure Data Factory
  • Dagster
  • IBM DataOpsプラットフォーム
  • Prefect

Apache Airflow

最も有名なデータ・オーケストレーション・ソリューションであるApache Airflowは、主にバッチ処理向けに設計されたオープンソース・プラットフォームです。これにより、ワークフローをDAGとして定義して、データ・ワークフロースケジューリングが可能になります。Airflowはスケーリングと並列実行をサポートするアーキテクチャーを備えており、複雑でデータ集約型のパイプラインの管理に適しています。

AWS Step Functions

AWS Step Functionsは、分散アプリケーションやマイクロサービスを調整するための視覚的なインターフェースを特徴とするAmazonのサーバーレス・オーケストレーション・サービスです。多くの場合、すでにAmazonインフラストラクチャーに依存している組織に推奨されますが、サードパーティーのアプリケーションと統合することもできます。

Azure Data Factory

MicrosoftのAzure Data Factoryは、他のAzureサービスとネイティブに統合される、フルマネージドのサーバーレス・データ統合サービスです。データ・ソースとETLおよびELTデータ・パイプライン・オーケストレーションを統合するためのビジュアル・ユーザー・インターフェースを備えています。

Dagster

Dagster社は、データ・リネージュやメタデータのトラッキングなどの機能により、観測可能性とデータ品質に重点を置いていることで知られています。その機能には、AI対応のデータ製品と最新のソフトウェア・エンジニアリングの手法をサポートするローカル・テストや再利用可能なコンポーネントも含まれています。

IBM DataOpsのツールとプラットフォーム

IBMは、データ・オーケストレーション機能を備えたDataOpsツールとプラットフォームの選択肢を提供しています。IBM watsonx.data intelligenceは、データ・ディスカバリーとデータ品質管理を自動化するデータ・カタログを提供します。IBM watsonx.data integrationは、再利用可能なパイプラインを構築するための統合制御プレーンを提供します。また、IBM Cloud Pak for Dataは、データ仮想化、パイプライン、コネクターを使用して、物理的なデータ移動の必要性を排除しながら、サイロ化されたソースからのデータを結合します。

Prefect

Prefectは、オープンソース・バージョンのデータ・オーケストレーション・ツールで、企業向けの追加機能を備えたクラウド管理ソリューションです。他のデータ・オーケストレーション・ソリューションとは異なり、PrefectはDAGに依存せず、代わりにコード中心のアプローチを採用しています。これにより、より動的なオーケストレーションを好む人もいます。

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

脚注