エージェント型AIデータ・エンジニアリングとは

By Alice Gomstyn , Alexandra Jonker

エージェント型AIデータ・エンジニアリングの定義

エージェント型AIデータ・エンジニアリングとは、データを集約・分析するシステムの作成と保守を改善および加速することを目的とした人工知能（AI）エージェントのデプロイメントです。

その名の通り、エージェント型AIデータ・エンジニアリングはデータ・エンジニアリングとエージェント型AIの融合です。前者は、データ管理に不可欠なデータ・インフラやデータ・パイプラインの開発と維持を行う実践です。

後者は、人間の監督を制限して特定の目標を達成できる人工知能システムを指します。マルチエージェントシステムのフレームワークでは、複数のAIエージェント（人間の意思決定を模倣した機械学習モデル）によって実行されるサブタスクが、AIのオーケストレーションによって調整されます。

データ・エンジニアリングでは、AIエージェントが複数の段階の問題解決プロセスを中心にして、企業のユースケースで高品質のデータを確実に利用できるようにします。これらのプロセスには、データ・パイプラインの設計や、クリティカルなデータ処理タスクの実行、データ変換の実行、データ問題の検出が含まれます。

エージェント型データ・エンジニアリングとも呼ばれるエージェント型AIデータ・エンジニアリングは、データ・エンジニアリング・チームのワークロードを大幅に軽減すると同時に、データ・パイプラインの性能を最適化することができます。さらに、エージェント型AIデータ・エンジニアリングにより、技術的スキルが不足しているビジネス・ユーザーでも、エンタープライズデータにアクセスして洞察を引き出すことができます。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

データ・エンジニアリングにとってエージェント型AIが重要な理由

エージェント型AIシステムがデータ・エンジニアリングに採用されている理由を理解するには、最新のデータ・エンジニアリングの性質を詳しく調べることが役立ちます。

データ・エンジニアリングは、ますます広範で複雑化していくデータ・エコシステムから価値を解き放つ企業にとって不可欠なものです。データ・エンジニアは、未加工データを実際のビジネス価値を提供するアウトプットに変換するワークフローの構造化と機能の確保を支援します。データ・エンジニアリングの実行が成功すると、クリーンで正確かつタイムリーなデータセットが提供され、分析して実行可能な洞察の獲得やAIイニシアチブの推進を行うことができます。

リアルタイムデータに基づく一刻を争う意思決定など、組織のデータ駆動型の意思決定への依存が加速する中、信頼性の高いデータ・パイプラインの必要性はかつてないほど高まっています。しかし、そのようなパイプラインを維持するという課題もかつてないほど大きくなっています。現在、データ・エンジニアは、ますます複雑化するデータ・スタックとオーケストレーション・プロセスを監督することを任されています。

必然的に、データ・チームは「消火活動」に多くの時間を費やすことになります。言い換えれば、データ・パイプラインの問題、さらにはデータ・パイプラインの障害に対処するための保守とトラブルシューティングに集中します。

「データ・エンジニアリング・チームがパイプラインを構築する場合、エンジニアはスケジュールされたジョブ、ストアド・プロシージャー、複雑なスクリプト、変換ロジックの組み合わせに依存することがよくあります。これらのそれぞれはデータの流れを維持するために連携します場合によっては、ソース・システムで単一のスキーマ変更や列名の変更が発生すると、数時間に及ぶデバッグと再テストが発生する可能性があります」と、IBM Data & AIのシニア・プロダクト・マネージャーであるJustin Yanは、IBM Technologyの動画で説明しています。

幸いなことに、AIエージェントをデプロイして、この作業の多くを処理し、そもそも問題の発生を防ぐことができるようになりました。インテリジェントなエージェントは、「データ統合における問題を解決し、データに関する課題の計画、監視、適応を支援して、ワークロードに求められる品質と適時性をもって、必要な場所にデータが届くようにします」とYanは言います。

エージェント型AIデータ・エンジニアリングで使用される主要なテクノロジー

テクノロジーの組み合わせにより、データ・エンジニアリング向けのエージェント型AIのデプロイメントがサポートされます。

AIエージェント

AIエージェントは、データ・ワークフローを含む利用可能なツールを用いてワークフローを設計し、自律的にタスクを実行するシステムです。エージェントは大規模言語モデルの自然言語処理技術を使用して、ユーザーのインプットを段階的に理解・対応し、外部ツールを呼び出すタイミングを決定します。

自然言語処理

自然言語処理（NLP）は、コンピューター・サイエンスとAIのサブフィールドで、機械学習を使用してコンピューターが人間の言語を理解してコミュニケーションできるようにします。NLPは、オペレーションの効率化と自動化を助ける企業向けのソリューションで、さらに多くの役割を果たすようになっています。

機械学習

機械学習は、トレーニング・データのパターンを「学習」できるアルゴリズムに焦点を当てたAIのサブセットです。そのようなアルゴリズムは、そのパターン認識を使用して、新しいデータについて正確な推論を行います。機械学習は、大規模言語モデルやその他の生成AIツールを含む、ほとんどの最新のAIシステムのバックボーンを提供しています。

大規模言語モデル

大規模言語モデル（LLM）はディープラーニングモデルの一種であり、自然言語やその他の種類のコンテンツを理解し、生成して多数のタスクを実行することができます。その機能は、人間の非構造化言語を大規模に処理するのに役立つ自然言語処理技術と大量のデータを用いたトレーニングに由来しています。

エージェント型AIデータ・エンジニアリングはどのように機能するのでしょうか？

データ・エンジニアリングにおける自律型エージェントの使用は、データ・システムやエンジニアリング・チームによって異なりますが、ここではAI搭載システムがデータ・ライフサイクル全体でさまざまなデータ・エンジニアリングのプロセスとタスクを処理する方法の概要を説明します。

データ・パイプラインの作成

エージェント型AIデータ・エンジニアリングにより、組織はデータ・パイプラインの作成を自動化できます。ユーザーは、望ましい成果を達成するために必要な手順を明確化することなく、自然言語を使用して、パイプラインが何を提供するかに関する意図を宣言できます。パイプラインがどのように機能するかは、AIエージェントにかかっています。これは宣言型パイプライン・オーサリングと呼ばれ、パイプラインの各ステップをコーディングする、より実践的なアプローチに代わるものです。

ユーザーが自然言語リクエストを送信した後、LLMはそのリクエストを解析し、ユーザーの意図を理解します。次に、AIエージェントは、以下を含むエンドツーエンドのプロセスを設計し、多くの場合、実装します。

データ・ソースからの接続と取り込み
データ変換のアプリケーション
ターゲット・システムへの新規データの移植

より技術的な知識を持つユーザーは、要求されたデータ・パイプラインの構造を指定することができます。そのためには、LLMがデータ・ソースの選択やデータ・クリーニングなど、データ関連のさまざまなタスクに対するユーザーの要求に基づいてPythonスクリプトを記述・実行できるようにするPythonソフトウェア開発キット（SDK）を使用します。

ジョブ実行

パイプラインが設計されると、エージェント型AIシステムによってワークロードを実行できます。AIエージェントは、データ・ソースに接続し、メタデータを理解し、トランスフォーメーションを実行するために必要な外部ツール、アプリケーション・プログラミング・インターフェース（API）、またはシステムとやり取りするツール呼び出しを行います。

また、エージェントは、ハイブリッド環境全体にわたるデータ・ワークフローの最適な実行パスを選択します。これには、ジョブの各部分に最適な統合アプローチ（リアルタイム・ストリーミング、バッチETL/ELT、または複製）とランタイム環境（オンプレミス、クラウド環境、またはプッシュダウンやリモート・エンジン）を動的に選択することが含まれます。

強化学習は、正しく設定され、完了したパイプライン実行を評価することで、エージェントがパイプライン計画を徐々に改善するのに役立ちます。

継続的な監視

エージェント型システムは、パイプラインを継続的に監視することでオブザーバビリティーを実現します。エージェントは、スキーマのドリフト、データの異常、データ品質の問題を検知できます。また、パイプラインの問題の根本原因分析をサポートし、修復手順を推奨し、その手順を実行することもできます。

パイプライン修正プログラムの自律的な実行は、そうでなければ不便な場合に特に役立ちます。「夜の仕事が失敗したらどうなるでしょうか？誰かにページングする代わりに、エージェントは実行を再試行し、エンジンをスケールアップし、フロー・ロジックを自動的に調整することができます」と、IBMのプロダクト・マネージャーであるJohn Wenは、IBM Technologyの動画で説明しています。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

エピソードに移動

エージェント型AIデータ・エンジニアリングのメリットとは

エージェント型AIデータ・エンジニアリングは、組織、そのデータ・チーム、ビジネス・ユーザーにさまざまなメリットをもたらします。例えば、次のようなユースケースです。

データ環境の複雑さの管理

今日のデータ・エンジニアが直面する基本的な課題は、異なるクラウド、データウェアハウス、データレイク、オンプレミスサーバーなど、複雑でサイロ化された環境全体でデータを扱うことです。一部のデータはスプレッドシートやSQLデータベースで整理されていますが、その多くはドキュメント、Eメール、トランスクリプト、画像で構造化されているわけではありません。エンタープライズ・システムでは、AIエージェントが一連のデータ・ソースに接続し、さまざまなデータ形式を統合し、より豊富な分析とより正確な予測を可能にする統合データ・プラットフォームを構築できます。

データ品質の向上

AIエージェントは、データ・プロファイリング、データ検証、ルール作成、監視、修復を自動化できます。「エージェントは列の変更や型の不一致を早期に検知し、ジョブが失敗する前に修正プログラムを提案できるようになります。異常の継続的なチェック、自動バックフィル、失敗したデータ・ソースを迂回することで、AIシステムの下流での使用のためにデータの信頼性を維持することができます」とYanは説明しました。

効率の向上

AIエージェントは、さまざまな実行ストラテジーを評価し、潜在的なボトルネックや複雑さ（異なるアプリケーションのスタックの隠れた依存関係など）を特定できます。この情報をパイプライン設計に組み込むことで、データ目標を達成しながら、リソース消費と運用時間を最小限に抑える計画を立案できます。

さらに、インフラストラクチャーやスキーマの変更に応じて、エージェント型システムは既存のパイプラインに適応して再利用できるため、企業は古いパイプラインや技術的負債の蓄積を回避できます。

規制コンプライアンスのサポート

パイプラインの設計とAIエージェントによる継続的な監視により、機密データが1996年米国医療保険の相互運用性と説明責任に関する法律（HIPAA）や欧州連合（EU）の一般データ保護規則（GDPR）などのデータプライバシー法に準拠していることを保証することができます。さらに、AIエージェントによるリネージュ追跡により、透明性と監査可能性を支援できます。

ビジネス・ユーザー向けのセルフサービスの提供

技術的な専門知識がほとんどない、またはまったくないビジネス・ユーザーは、データのニーズを満たすためにデータの専門家だけに頼る必要はなくなりました。データ実践者の支援を待つのではなく、AIエージェントにデータセットの作成や提供を要求することができるため、重要な洞察をより早く得ることができます。

スケーラブルな成長の実現

AIエージェントは、完全に機能するデータ・パイプラインを設計、構築、実行することができますが、データ・チームがこのようなパイプラインを手作業でコーディングする場合に比べてわずかな時間で実行できます。AIエージェントは、これらのパイプラインを適応性のあるものにし、「自己修復」させることもできます。つまり、下流のプロセスを中断する前に問題を監視して対処することができます。つまり、データ資産とデータ・ニーズが拡大し進化するのに応じて、企業は自信を持ってパイプラインを追加し続けることができます。

データ・エンジニアの処理能力の向上

パイプラインの設計、保守、トラブルシューティングのタスクをエージェント型AIシステムに任せることで、データ・エンジニアは生産性を高め、新しい機能の構築とパイロットなど、価値の高いタスクや有意義な作業に注力できるようになります。

エージェント型AIデータ・エンジニアリングに関する考慮事項

他のAIユースケースと同様に、企業はデータ・エンジニアリングにエージェント型AIをデプロイする際に、いくつかの潜在的な課題を考慮する必要があります。

AIテクノロジーと本質的に互換性のない古いレガシーシステムにAIエージェントを統合することの難しさ。
業務時間中に大規模なデータ量を再処理するなど、エージェントが予期せぬタスクを自律的に実行し、ワークフローを混乱させるリスク。
サイバー攻撃によって危険にさらされたため、または単にAIの出力の信頼性が低いことが原因で、エージェントがデータ侵害につながるリスク。

ソフトウェア・ソリューションとプラットフォームは、データ・エンジニアリング用のAI駆動型システムなど、エージェント型AIを日常のワークフローに組み込む際の課題に対処するのに役立ちます。

堅牢なAIガバナンスツールは、エージェントの意図しない行動を制限するガードレールの埋め込みと、エージェントの性能を評価するための特別なメトリクスのデプロイメントを可能にします。AIオーケストレーション・ソリューションは、大掛かりな再構築を行わずに、高度なAIテクノロジーと旧式のエンタープライズ・システムとの間のギャップを埋めるのに役立ちます。

執筆者

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think