その名の通り、エージェント型AIデータ・エンジニアリングはデータ・エンジニアリングとエージェント型AIの融合です。前者は、データ管理に不可欠なデータ・インフラやデータ・パイプラインの開発と維持を行う実践です。
後者は、人間の監督を制限して特定の目標を達成できる人工知能システムを指します。マルチエージェントシステムのフレームワークでは、複数のAIエージェント(人間の意思決定を模倣した機械学習モデル)によって実行されるサブタスクが、AIのオーケストレーションによって調整されます。
データ・エンジニアリングでは、AIエージェントが複数の段階の問題解決プロセスを中心にして、企業のユースケースで高品質のデータを確実に利用できるようにします。これらのプロセスには、データ・パイプラインの設計や、クリティカルなデータ処理タスクの実行、データ変換の実行、データ問題の検出が含まれます。
エージェント型データ・エンジニアリングとも呼ばれるエージェント型AIデータ・エンジニアリングは、データ・エンジニアリング・チームのワークロードを大幅に軽減すると同時に、データ・パイプラインの性能を最適化することができます。さらに、エージェント型AIデータ・エンジニアリングにより、技術的スキルが不足しているビジネス・ユーザーでも、エンタープライズデータにアクセスして洞察を引き出すことができます。
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
エージェント型AIシステムがデータ・エンジニアリングに採用されている理由を理解するには、最新のデータ・エンジニアリングの性質を詳しく調べることが役立ちます。
データ・エンジニアリングは、ますます広範で複雑化していくデータ・エコシステムから価値を解き放つ企業にとって不可欠なものです。データ・エンジニアは、未加工データを実際のビジネス価値を提供するアウトプットに変換するワークフローの構造化と機能の確保を支援します。データ・エンジニアリングの実行が成功すると、クリーンで正確かつタイムリーなデータセットが提供され、分析して実行可能な洞察の獲得やAIイニシアチブの推進を行うことができます。
リアルタイムデータに基づく一刻を争う意思決定など、組織のデータ駆動型の意思決定への依存が加速する中、信頼性の高いデータ・パイプラインの必要性はかつてないほど高まっています。しかし、そのようなパイプラインを維持するという課題もかつてないほど大きくなっています。現在、データ・エンジニアは、ますます複雑化するデータ・スタックとオーケストレーション・プロセスを監督することを任されています。
必然的に、データ・チームは「消火活動」に多くの時間を費やすことになります。言い換えれば、データ・パイプラインの問題、さらにはデータ・パイプラインの障害に対処するための保守とトラブルシューティングに集中します。
「データ・エンジニアリング・チームがパイプラインを構築する場合、エンジニアはスケジュールされたジョブ、ストアド・プロシージャー、複雑なスクリプト、変換ロジックの組み合わせに依存することがよくあります。これらのそれぞれはデータの流れを維持するために連携します場合によっては、ソース・システムで単一のスキーマ変更や列名の変更が発生すると、数時間に及ぶデバッグと再テストが発生する可能性があります」と、IBM Data & AIのシニア・プロダクト・マネージャーであるJustin Yanは、IBM Technologyの動画で説明しています。
幸いなことに、AIエージェントをデプロイして、この作業の多くを処理し、そもそも問題の発生を防ぐことができるようになりました。インテリジェントなエージェントは、「データ統合における問題を解決し、データに関する課題の計画、監視、適応を支援して、ワークロードに求められる品質と適時性をもって、必要な場所にデータが届くようにします」とYanは言います。
テクノロジーの組み合わせにより、データ・エンジニアリング向けのエージェント型AIのデプロイメントがサポートされます。
AIエージェントは、データ・ワークフローを含む利用可能なツールを用いてワークフローを設計し、自律的にタスクを実行するシステムです。エージェントは大規模言語モデルの自然言語処理技術を使用して、ユーザーのインプットを段階的に理解・対応し、外部ツールを呼び出すタイミングを決定します。
大規模言語モデル(LLM)はディープラーニングモデルの一種であり、自然言語やその他の種類のコンテンツを理解し、生成して多数のタスクを実行することができます。その機能は、人間の非構造化言語を大規模に処理するのに役立つ自然言語処理技術と大量のデータを用いたトレーニングに由来しています。
データ・エンジニアリングにおける自律型エージェントの使用は、データ・システムやエンジニアリング・チームによって異なりますが、ここではAI搭載システムがデータ・ライフサイクル全体でさまざまなデータ・エンジニアリングのプロセスとタスクを処理する方法の概要を説明します。
エージェント型AIデータ・エンジニアリングにより、組織はデータ・パイプラインの作成を自動化できます。ユーザーは、望ましい成果を達成するために必要な手順を明確化することなく、自然言語を使用して、パイプラインが何を提供するかに関する意図を宣言できます。パイプラインがどのように機能するかは、AIエージェントにかかっています。これは宣言型パイプライン・オーサリングと呼ばれ、パイプラインの各ステップをコーディングする、より実践的なアプローチに代わるものです。
ユーザーが自然言語リクエストを送信した後、LLMはそのリクエストを解析し、ユーザーの意図を理解します。次に、AIエージェントは、以下を含むエンドツーエンドのプロセスを設計し、多くの場合、実装します。
より技術的な知識を持つユーザーは、要求されたデータ・パイプラインの構造を指定することができます。そのためには、LLMがデータ・ソースの選択やデータ・クリーニングなど、データ関連のさまざまなタスクに対するユーザーの要求に基づいてPythonスクリプトを記述・実行できるようにするPythonソフトウェア開発キット(SDK)を使用します。
パイプラインが設計されると、エージェント型AIシステムによってワークロードを実行できます。AIエージェントは、データ・ソースに接続し、メタデータを理解し、トランスフォーメーションを実行するために必要な外部ツール、アプリケーション・プログラミング・インターフェース(API)、またはシステムとやり取りするツール呼び出しを行います。
また、エージェントは、ハイブリッド環境全体にわたるデータ・ワークフローの最適な実行パスを選択します。これには、ジョブの各部分に最適な統合アプローチ(リアルタイム・ストリーミング、バッチETL/ELT、または複製)とランタイム環境(オンプレミス、クラウド環境、またはプッシュダウンやリモート・エンジン)を動的に選択することが含まれます。
強化学習は、正しく設定され、完了したパイプライン実行を評価することで、エージェントがパイプライン計画を徐々に改善するのに役立ちます。
エージェント型システムは、パイプラインを継続的に監視することでオブザーバビリティーを実現します。エージェントは、スキーマのドリフト、データの異常、データ品質の問題を検知できます。また、パイプラインの問題の根本原因分析をサポートし、修復手順を推奨し、その手順を実行することもできます。
パイプライン修正プログラムの自律的な実行は、そうでなければ不便な場合に特に役立ちます。「夜の仕事が失敗したらどうなるでしょうか?誰かにページングする代わりに、エージェントは実行を再試行し、エンジンをスケールアップし、フロー・ロジックを自動的に調整することができます」と、IBMのプロダクト・マネージャーであるJohn Wenは、IBM Technologyの動画で説明しています。
エージェント型AIデータ・エンジニアリングは、組織、そのデータ・チーム、ビジネス・ユーザーにさまざまなメリットをもたらします。例えば、次のようなユースケースです。
AIエージェントは、データ・プロファイリング、データ検証、ルール作成、監視、修復を自動化できます。「エージェントは列の変更や型の不一致を早期に検知し、ジョブが失敗する前に修正プログラムを提案できるようになります。異常の継続的なチェック、自動バックフィル、失敗したデータ・ソースを迂回することで、AIシステムの下流での使用のためにデータの信頼性を維持することができます」とYanは説明しました。
AIエージェントは、さまざまな実行ストラテジーを評価し、潜在的なボトルネックや複雑さ(異なるアプリケーションのスタックの隠れた依存関係など)を特定できます。この情報をパイプライン設計に組み込むことで、データ目標を達成しながら、リソース消費と運用時間を最小限に抑える計画を立案できます。
さらに、インフラストラクチャーやスキーマの変更に応じて、エージェント型システムは既存のパイプラインに適応して再利用できるため、企業は古いパイプラインや技術的負債の蓄積を回避できます。
パイプラインの設計とAIエージェントによる継続的な監視により、機密データが1996年米国医療保険の相互運用性と説明責任に関する法律(HIPAA)や欧州連合(EU)の一般データ保護規則(GDPR)などのデータプライバシー法に準拠していることを保証することができます。さらに、AIエージェントによるリネージュ追跡により、透明性と監査可能性を支援できます。
技術的な専門知識がほとんどない、またはまったくないビジネス・ユーザーは、データのニーズを満たすためにデータの専門家だけに頼る必要はなくなりました。データ実践者の支援を待つのではなく、AIエージェントにデータセットの作成や提供を要求することができるため、重要な洞察をより早く得ることができます。
AIエージェントは、完全に機能するデータ・パイプラインを設計、構築、実行することができますが、データ・チームがこのようなパイプラインを手作業でコーディングする場合に比べてわずかな時間で実行できます。AIエージェントは、これらのパイプラインを適応性のあるものにし、「自己修復」させることもできます。つまり、下流のプロセスを中断する前に問題を監視して対処することができます。つまり、データ資産とデータ・ニーズが拡大し進化するのに応じて、企業は自信を持ってパイプラインを追加し続けることができます。
パイプラインの設計、保守、トラブルシューティングのタスクをエージェント型AIシステムに任せることで、データ・エンジニアは生産性を高め、新しい機能の構築とパイロットなど、価値の高いタスクや有意義な作業に注力できるようになります。
他のAIユースケースと同様に、企業はデータ・エンジニアリングにエージェント型AIをデプロイする際に、いくつかの潜在的な課題を考慮する必要があります。
ソフトウェア・ソリューションとプラットフォームは、データ・エンジニアリング用のAI駆動型システムなど、エージェント型AIを日常のワークフローに組み込む際の課題に対処するのに役立ちます。
堅牢なAIガバナンスツールは、エージェントの意図しない行動を制限するガードレールの埋め込みと、エージェントの性能を評価するための特別なメトリクスのデプロイメントを可能にします。AIオーケストレーション・ソリューションは、大掛かりな再構築を行わずに、高度なAIテクノロジーと旧式のエンタープライズ・システムとの間のギャップを埋めるのに役立ちます。
データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。
watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。