マルチモーダルAIとは

マルチモーダルAIとは、複数のモダリティーや種類の異なるデータから得られた情報を処理、統合できる機械学習モデルのことです。このようなモダリティーには、テキスト、画像、音声、動画、およびその他の形式の感覚入力が含まれます。

1種類のデータを処理するように設計された従来のAIモデルとは異なり、マルチモーダルAIは、さまざまな形式のデータ入力を組み合わせて分析し、情報をより包括的に理解して、出力の信頼性を高めます。

一例として、あるマルチモーダル・モデルは、風景写真を入力として受け取り、その場所の特徴をまとめた文書を作成することができます。あるいは、風景についてまとめた文書を受け取り、その説明に基づいて画像を生成することもできます。このように複数のモダリティーで動作できることにより、これらのモデルは強力な機能を備えることができます。

OpenAI社が2022年11月にChatGPTを発表したことにより、生成AIは一躍注目を集めました。ChatGPTは、テキスト入力を受け取り、自然言語処理（NLP）を利用してテキスト出力を生成するように設計されたユニモーダルAIでした。

マルチモーダルAIは、複数の種類の入出力を可能にすることで、生成AIの信頼性と有用性を高めることができます。例えば、Dall-eは、Open AIによるGPTモデルに対する初めてのマルチモーダル実装でしたが、GPT-4oはChatGPTにもマルチモーダル機能を導入しました。

マルチモーダルAIモデルは、さまざまなデータ・ソースからの情報やメディア間の情報を組み合わせることで、データをより包括的かつ詳細に把握できるようにしてくれます。これにより、AIはより多くの情報に基づいて判断し、より正確な出力を生成できます。

マルチモーダルAIシステムは、さまざまなモダリティーを活用することで、画像認識、言語翻訳、音声認識などのタスクで、より高い精度と信頼性を実現できます。さまざまな種類のデータを統合することで、より多くのコンテキストを把握し、曖昧さを減らすことができるよう支援します。マルチモーダルAIシステムは、ノイズや欠損データに対して回復力が高まっています。信頼性の低いあるいは利用できないモダリティーが1つある場合、システムはパフォーマンスを維持するために他のモダリティーを利用することができます。

マルチモーダルAIは、より自然で直感的なインターフェースを実現して人間とコンピューターの相互作用を強化することで、ユーザー・エクスペリエンスを向上させます。例えば、バーチャル・アシスタントは音声コマンドと視覚的な手がかりの両方を理解して対応できるため、よりスムーズで効率的な相互作用が可能になります。

眼鏡について話し、共有した写真に基づいてサイズのアドバイスをするチャットボットや、特定の鳥の画像を認識し、その鳴き声の音声を「聞く」ことでその鳥の識別情報を確認できる鳥識別アプリを想像してください。複数の感覚次元にまたがって動作できるAIは、ユーザーに対し、より意味のある出力を提供すると同時に、データとの関わり方をさらに広げてくれます。

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

マルチモーダルAIの仕組み

人工知能は急速に進化している分野であり、基盤モデルを構築するトレーニング・アルゴリズムの最新の進歩が、マルチモーダルの研究に応用されています。この分野では、ディープラーニング（深層学習）やデータサイエンスの進歩が生成AIへの道を切り開く以前に開発されていた、視聴覚音声認識やマルチメディア・コンテンツのインデックス化といったマルチモーダル・イノベーションが先行していました。

現在、医療従事者は、医療における医用画像の分析から、AI 搭載の自動運転車におけるコンピューター・ビジョンとその他の感覚入力の併用に至るまで、あらゆる種類のユースケースでマルチモーダルAIを使用しています。

Carnegie Mellonの2022年の論文には、マルチモーダルAIの3つの特性である、異質性、接続性、相互作用について記載されています。¹異質性とは、モダリティーの多様な性質、構造、表現を指します。イベントをテキストで説明したものは、その同じイベントを撮影した写真とは品質、構造、表現が根本的に異なります。

接続性とは、異なるモダリティー間で共有される補足情報を指します。このような接続性は、統計的な類似性や意味的な対応に反映される場合があります。そして、相互作用とは、さまざまなモダリティーを組み合わせるとどのような相互作用が起こるかということです。

マルチモーダルAIの核となるエンジニアリングの課題は、さまざまな種類のデータを効果的に統合、処理することで、各モダリティーの強みを活用しながら、個々の限界を克服することができるモデルを作成することにあります。また、この論文の著者は、表現、整合、推論、生成、転移、定量化といった、いくつかの課題も提起しています。

表現とは、モダリティー間の異質性と相互関係を反映するために、マルチモーダル・データをどのように表現して要約するかということです。専門家は、特殊なニューラル・ネットワーク（画像にCNN、テキストにトランスフォーマーなど）を使用して特徴を抽出したり、表現学習のために結合埋め込み空間や注意機構を使用したりします。
整合は、要素間のつながりや相互作用を特定することを目的としています。例えば、エンジニアはさまざまな手法を使って、動画と音声データの時間的整合性や、画像とテキストの空間的整合性を確保します。
推論は、複数のモダリティーによって得られる証拠から知識を構成することを目的としており、通常は、複数の推論ステップを経ることになります。
生成には、クロスモーダル（感覚間）の相互作用、構造、一貫性を反映した、未加工のモダリティーを生成するための生成プロセスの学習が含まれます。
転移とは、モダリティー間で知識を転移することを目的としています。高度な転移学習技術と共有された埋め込み空間により、知識をモダリティー間で転移することができます。
定量化には、マルチモーダル学習を理解して、マルチモーダル・モデル内におけるパフォーマンスの評価を向上するための実証的研究や理論的研究が含まれます。

マルチモーダル・モデルにより、大規模言語モデル（LLM）の複雑さはさらに増します。LLMは、トランスフォーマーをベースとしていますが、トランスフォーマー自体は、データを効率的に処理する注意機構を備えたエンコーダー／デコーダー・アーキテクチャーをベースに構築されています。マルチモーダルAIは、データ融合技術を使用して、さまざまなモダリティーを統合します。この融合は、初期（モダリティーがモデルにエンコードされて、共通の表現空間を作成する）、中期（異なる前処理段階でモダリティーが結合される）、後期（複数のモデルが異なるモダリティーを処理し、その出力を組み合わせる）に分けて説明することができます。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

マルチモーダルAIの傾向

マルチモーダルAIは急速に進化している分野であり、その開発と応用を方向付けるいくつかの重要な傾向があります。ここでは、注目すべき傾向をいくつかご紹介します。

統一モデル

OpenAIのGPT-4 V（ision）、GoogleのGeminiといった統一モデルは、単一のアーキテクチャー内でテキスト、画像、その他のデータ・タイプを処理するように設計されています。このようなモデルは、マルチモーダル・コンテンツをシームレスに理解し、生成することができます。

クロスモーダル相互作用の強化

高度な注意機構とトランスフォーマーは、さまざまな形式のデータをより適切に整合して融合するために使用されており、より一貫性のある、コンテキストに沿った正確な出力を実現しています。

リアルタイムのマルチモーダル処理

例えば、自動運転や拡張現実のアプリケーションでは、AIがさまざまなセンサー（カメラ、LIIDARなど）からのデータをリアルタイムで処理して統合し、瞬時に判断を下す必要があります。

マルチモーダル・データ拡張

研究者は、トレーニング・データ・セットを強化し、モデルのパフォーマンスを向上させるために、さまざまなモダリティー（テキストの説明とそれに対応する画像など）を組み合わせた合成データを生成しています。

オープンソースとコラボレーション

Hugging FaceやGoogle AIなどの取り組みでは、オープンソースのAIツールが提供され、研究者や開発者がこの分野を発展させるためのコラボレーション環境づくりが行われています。

参考情報

AIの専門知識のレベルアップを図る

ハンズオン・ラボ、コース、指導付きプロジェクト、トライアルなどで、基本的な概念を学び、スキルを身につけていただけます。

生成AI + MLの力を解き放つ

生成AIと機械学習をビジネスに活用する確実な方法を学びましょう。

AIの活用を本格化：生成AIでROI向上

AIの投資対効果を高めるために、主要な分野で生成AIの活用を拡大することで、どのように革新的な新規ソリューションの構築、提供を支援し、変化をもたらすかを紹介します。

適切な基盤モデルを選ぶ方法

ユースケースに最適なAI基盤モデルを選択する方法について説明します。

IBM Graniteはこちら

IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。

AIの新時代に信頼と自信を持って成功する方法

強力なAIストラテジーの3つの重要な要素である、競争優位性の創出、ビジネス全体へのAIの拡張、信頼できるAIの推進について詳しく説明します。

AI in Actionレポート

2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。

次のステップ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら

デモを予約

脚注

¹ https://arxiv.org/abs/2209.03430, 2022年9月7日。