マルチモーダルAIとは、複数のモダリティーや種類の異なるデータから得られた情報を処理、統合できる機械学習モデルのことです。このようなモダリティーには、テキスト、画像、音声、動画、およびその他の形式の感覚入力が含まれます。
1種類のデータを処理するように設計された従来のAIモデルとは異なり、マルチモーダルAIは、さまざまな形式のデータ入力を組み合わせて分析し、情報をより包括的に理解して、出力の信頼性を高めます。
一例として、あるマルチモーダル・モデルは、風景写真を入力として受け取り、その場所の特徴をまとめた文書を作成することができます。あるいは、風景についてまとめた文書を受け取り、その説明に基づいて画像を生成することもできます。このように複数のモダリティーで動作できることにより、これらのモデルは強力な機能を備えることができます。
OpenAI社が2022年11月にChatGPTを発表したことにより、生成AIは一躍注目を集めました。ChatGPTは、テキスト入力を受け取り、自然言語処理(NLP)を利用してテキスト出力を生成するように設計されたユニモーダルAIでした。
マルチモーダルAIは、複数の種類の入出力を可能にすることで、生成AIの信頼性と有用性を高めることができます。例えば、Dall-eは、Open AIによるGPTモデルに対する初めてのマルチモーダル実装でしたが、GPT-4oはChatGPTにもマルチモーダル機能を導入しました。
マルチモーダルAIモデルは、さまざまなデータ・ソースからの情報やメディア間の情報を組み合わせることで、データをより包括的かつ詳細に把握できるようにしてくれます。これにより、AIはより多くの情報に基づいて判断し、より正確な出力を生成できます。
マルチモーダルAIシステムは、さまざまなモダリティーを活用することで、画像認識、言語翻訳、音声認識などのタスクで、より高い精度と信頼性を実現できます。さまざまな種類のデータを統合することで、より多くのコンテキストを把握し、曖昧さを減らすことができるよう支援します。マルチモーダルAIシステムは、ノイズや欠損データに対して回復力が高まっています。信頼性の低いあるいは利用できないモダリティーが1つある場合、システムはパフォーマンスを維持するために他のモダリティーを利用することができます。
マルチモーダルAIは、より自然で直感的なインターフェースを実現して人間とコンピューターの相互作用を強化することで、ユーザー・エクスペリエンスを向上させます。例えば、バーチャル・アシスタントは音声コマンドと視覚的な手がかりの両方を理解して対応できるため、よりスムーズで効率的な相互作用が可能になります。
眼鏡について話し、共有した写真に基づいてサイズのアドバイスをするチャットボットや、特定の鳥の画像を認識し、その鳴き声の音声を「聞く」ことでその鳥の識別情報を確認できる鳥識別アプリを想像してください。複数の感覚次元にまたがって動作できるAIは、ユーザーに対し、より意味のある出力を提供すると同時に、データとの関わり方をさらに広げてくれます。
人工知能は急速に進化している分野であり、基盤モデルを構築するトレーニング・アルゴリズムの最新の進歩が、マルチモーダルの研究に応用されています。この分野では、ディープラーニング(深層学習)やデータサイエンスの進歩が生成AIへの道を切り開く以前に開発されていた、視聴覚音声認識やマルチメディア・コンテンツのインデックス化といったマルチモーダル・イノベーションが先行していました。
現在、医療従事者は、医療における医用画像の分析から、AI 搭載の自動運転車におけるコンピューター・ビジョンとその他の感覚入力の併用に至るまで、あらゆる種類のユースケースでマルチモーダルAIを使用しています。
Carnegie Mellonの2022年の論文には、マルチモーダルAIの3つの特性である、異質性、接続性、相互作用について記載されています。1異質性とは、モダリティーの多様な性質、構造、表現を指します。イベントをテキストで説明したものは、その同じイベントを撮影した写真とは品質、構造、表現が根本的に異なります。
接続性とは、異なるモダリティー間で共有される補足情報を指します。このような接続性は、統計的な類似性や意味的な対応に反映される場合があります。そして、相互作用とは、さまざまなモダリティーを組み合わせるとどのような相互作用が起こるかということです。
マルチモーダルAIの核となるエンジニアリングの課題は、さまざまな種類のデータを効果的に統合、処理することで、各モダリティーの強みを活用しながら、個々の限界を克服することができるモデルを作成することにあります。また、この論文の著者は、表現、整合、推論、生成、転移、定量化といった、いくつかの課題も提起しています。
表現とは、モダリティー間の異質性と相互関係を反映するために、マルチモーダル・データをどのように表現して要約するかということです。専門家は、特殊なニューラル・ネットワーク(画像にCNN、テキストにトランスフォーマーなど)を使用して特徴を抽出したり、表現学習のために結合埋め込み空間や注意機構を使用したりします。
整合は、要素間のつながりや相互作用を特定することを目的としています。例えば、エンジニアはさまざまな手法を使って、動画と音声データの時間的整合性や、画像とテキストの空間的整合性を確保します。
推論は、複数のモダリティーによって得られる証拠から知識を構成することを目的としており、通常は、複数の推論ステップを経ることになります。
生成には、クロスモーダル(感覚間)の相互作用、構造、一貫性を反映した、未加工のモダリティーを生成するための生成プロセスの学習が含まれます。
転移とは、モダリティー間で知識を転移することを目的としています。高度な転移学習技術と共有された埋め込み空間により、知識をモダリティー間で転移することができます。
定量化には、マルチモーダル学習を理解して、マルチモーダル・モデル内におけるパフォーマンスの評価を向上するための実証的研究や理論的研究が含まれます。
マルチモーダルAIは急速に進化している分野であり、その開発と応用を方向付けるいくつかの重要な傾向があります。ここでは、注目すべき傾向をいくつかご紹介します。
OpenAIのGPT-4 V(ision)、GoogleのGeminiといった統一モデルは、単一のアーキテクチャー内でテキスト、画像、その他のデータ・タイプを処理するように設計されています。このようなモデルは、マルチモーダル・コンテンツをシームレスに理解し、生成することができます。
高度な注意機構とトランスフォーマーは、さまざまな形式のデータをより適切に整合して融合するために使用されており、より一貫性のある、コンテキストに沿った正確な出力を実現しています。
例えば、自動運転や拡張現実のアプリケーションでは、AIがさまざまなセンサー(カメラ、LIIDARなど)からのデータをリアルタイムで処理して統合し、瞬時に判断を下す必要があります。
研究者は、トレーニング・データ・セットを強化し、モデルのパフォーマンスを向上させるために、さまざまなモダリティー(テキストの説明とそれに対応する画像など)を組み合わせた合成データを生成しています。
Hugging FaceやGoogle AIなどの取り組みでは、オープンソースのAIツールが提供され、研究者や開発者がこの分野を発展させるためのコラボレーション環境づくりが行われています。
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。
1 https://arxiv.org/abs/2209.03430, 2022年9月7日。