複合AIシステムは、複数のAIモデル、手法、またはシステムを組み合わせて、単一の人工知能(AI)モデルよりも効率的に複雑な問題を解決する高度な構成です。これらのシステムは、それぞれが特定のタスクに特化したさまざまなコンポーネントを統合し、共同でまたは順番に動作します。
大規模言語モデル(LLM)には多くの注目が集まっていますが、これらの大規模な機械学習(ML)モデルには限界があります。実行と開発にコストがかかり、速度も遅く、さらに、ドメイン固有の専門知識が不足しており、システム間で多くのステップを伴う複雑なタスクの処理に必ずしも長けているわけではありません。
このような制約により、研究者は、モノリシック・モデルを特定の役割に最適化された他のモデルやツールで補完することで、より効果的なアプローチを実現できることを発見しました。
2024年のBerkeley Artificial Intelligence Research(BAIR)Labのブログには、複合AIシステムがどのようなものになるかを示す初期の明確なビジョンが示されました。このブログでは、複合AIシステムを構築することでより良い結果が得られる可能性があり、AIの未来では、LLM、検索システム、AIエージェント、外部ツールを統合し、それぞれ特定のタスクに最適化された組織が関与することになるだろうと予測されていました。
複数の個別のモデルと相互作用するコンポーネントのオーケストレーションには、数多くのメリットがあります。
複合システムでは、タスクを専門モデルに分割することで、個々のAIコンポーネントの認知負荷を軽減します。例えば、1つのモデルは構造化データの分析に重点を置き、別のモデルは画像やテキストなどの非構造化データを解釈します。この分業により、単一モデルのシステムと比較してパフォーマンスが向上し、精度が高まります。
LLMは優れた性能を発揮し、より多くの計算リソースが提供されるとさらに優れた性能を発揮しますが、拡張性の法則により、パフォーマンスの上限と収益の減少に直面します。場合によっては、LLMにさらに多くの計算を投入するよりも、それほどリソースを消費しない別のモデル、エージェント、またはツールに特定のタスクを委任する方が望ましい場合があります。
複数のモデルを組み合わせてタスクを実行すると、単一のLLMをトレーニングするよりも高速になる場合があります。さらに、複合システムは異なるタイプのデータを同時に処理できるため、リアルタイムの意思決定が可能になります。これは、迅速な対応が不可欠な不正検出などのAIアプリケーションや、レイテンシーを最小限に抑える必要があるエッジ・アプリケーションでは重要です。
複合システムは汎用性が高く、さまざまなユースケースに適用できます。この汎用性により、複合AIシステムは、複数のドメインにわたる運用の最適化を目指す企業にとって好ましい選択肢となります。
組織は、事前トレーニング済みのコンポーネント、オープンソース・ソリューション、カスタム・モジュールを組み合わせて使用するシステム設計からメリットを得ることができます。各コンポーネントは、システム全体をオーバーホールすることなく、テクノロジーの進化に合わせて個別に更新または交換できます。タスクをさまざまなモデルに分散することで、複合システムは個々のコンポーネントの障害に対する適応性と回復力というメリットを得られます。
検索拡張生成(RAG)などの複合手法は、初期トレーニングのデータセット以外のデータ・ソースにアクセスできるようにすることで、LLMの機能を拡張します。また、さまざまなモデルを組み合わせることで、開発者は速度やドメインの専門知識などの特定の目標に合わせて最適化できます。また、さまざまなモデルを組み合わせることで、開発者は速度やドメインの専門知識などの特定の目標に合わせて最適化できます。
LLMは扱いにくく、ハルシネーションを起こしやすく、必ずしも簡単に説明できない決定を下すことがあります。複合AIソリューションは、入力を制御して出力をフィルタリングするのに役立ち、信頼を促進するより制御された動作を実現します。
複合AIシステムは、次のような実際のユースケースで既に使用されています。
OpenAI社のChatGPTやMicrosoft社のCopilotなど、特定のチャットボットは、複合アーキテクチャーに基づいて構築されています。例えばChatGPTは、特定のタスク用のいくつかのツールとAPIを通じてその有用性を拡張します。
LLM、DALL-Eイメージ・ジェネレーター、コード・インタープリター・プラグインを統合します。RAGを使用して外部データ・ソースとナレッジ・ベースに動的にアクセスします。応答を返す前に、別のAIモデルを使用して有害または不適切なコンテンツを検出し、フィルタリングします。
この技術はまだ主流にはなっていませんが、自動運転車システムはコンピューター・ビジョン・モデルを使用して、車の周囲の物体を検出し、認識します。センサー・フュージョン・アルゴリズムは、カメラ、LiDAR、レーダー、超音波センサーからのデータを組み合わせて、環境の包括的な3Dマップを作成し、状況認識を強化します。
強化学習モデルは、リアルタイムの状況に基づいて、車線変更、速度調整、信号停止のタイミングを決定するなどの意思決定を処理します。
また、自然言語処理(NLP)により、車両は乗客からの音声コマンドを解釈して応答できます。これらのコンポーネントはシームレスに連携して膨大な量のデータを処理し、インテリジェントな即時決定を下し、直感的なエクスペリエンスを提供します。
カスタマー・サポートの複合AIシステムは、複数のAIテクノロジーを組み合わせて、効率的でパーソナライズされた応答性の高いサービスを提供します。例えば、NLPモデルは顧客の問い合わせを分析して意図と重要な詳細を抽出し、システムが問題を正確に理解できるようにします。
意図が特定されると、生成AIを搭載したチャットボットが顧客と対話し、即時のサポートを提供したり、追加の詳細を明確にしたりします。同時に、推奨システムが、トラブルシューティングの手順、FAQ記事の提供、顧客のニーズに合わせた製品の推奨など、関連するソリューションを提案します。
エクスペリエンスを向上させるために、感情分析モデルは顧客の口調と感情状態を評価し、緊急または不満のあるケースを優先して人間による介入を行うのに役立ちます。このコンポーネントの組み合わせにより、迅速でインテリジェントかつ共感的な顧客サポートが可能になり、解決時間を短縮しながら高い顧客満足度を維持できます。
サプライチェーンの複合AIシステムは、複数のAIコンポーネントを使用して、物流、在庫管理、全体的な効率を最適化します。例えば、予測分析モデルは、過去の販売データ、季節的な傾向、市場変数を分析して需要を予測し、正確な在庫計画を可能にします。
コンピューター・ビジョン・システムは倉庫の業務を監視し、置き忘れた品物や破損した品物などの非効率性やエラーをリアルタイムで特定します。同時に、ルート最適化アルゴリズムは、交通、天候、燃料消費などの要素を考慮して、最も効率的な配送経路を決定します。
また、NLPにより、発注書の処理や問い合わせへの対応など、サプライヤーと顧客とのコミュニケーションを自動化できます。これらのコンポーネントを統合することで、システムはサプライチェーンの応答性を向上させ、無駄を減らし、タイムリーな納品を確実にするとともに、需要や外部条件の変化に動的に適応します。
複合AIシステムの設計には、複数のAIモデルとコンポーネントを、複雑なタスクに対応できる統合フレームワークに統合することが含まれます。これらのフレームワークは、さまざまなモデルを組み合わせるためのインフラストラクチャーを提供し、モデル間のシームレスな通信を確保するのに役立ちます。
複合AIシステムでは、システムの目標に応じて、プログラムされた制御ロジックがモデルを呼び出したり、LLMが「担当」したりすることがあります。
どちらのアプローチにも明確なメリットがあり、AIシステム内でモデルやその他のコンポーネントを連携させる方法は無限にあるため、設計者はアプローチについて批判的に考え、さまざまなアーキテクチャーやコンポーネントの組み合わせを試す意欲を持つ必要があります。
機械学習の運用(MLOps)は、複合的なワークフローではさらに複雑になります。例えば、さまざまな種類のツールやモデルに一貫したメトリクスを適用するのは困難です。BAIRDの研究者は、監視、デバッグ、その他の関連する運用上の懸念事項によって生じる課題に対処するために、複合システムへの移行とともにAI開発の新しいフェーズが生まれると主張しています。