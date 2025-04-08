大規模言語モデルは人間の音声を非常によく理解していますが、もしそれが脳自体を反映しているとしたらどうでしょうか。
Nature Human Behaviour誌に掲載された新しい研究で、科学者たちはOpenAIのWhisperモデルが自然な会話中に実際のニューロンがどのように反応するかに驚くほど似た言語処理をしていることを発見しました。主席研究者のAriel Goldstein氏がIBM® Thinkに語ったところによると、彼と彼のチームは、台本のない対話に参加した人々の脳の記録を100時間以上分析したと言います。これらの録音をWhisperの内部作業と比較することで、モデルの階層化された表現が、生の音から意味まで脳が音声を処理する方法と密接に一致していることを発見しました。
Goldstein氏は、この調査結果は商業的に重要な影響を与える可能性があると述べています。将来的には、脳のように柔軟かつ効率的に音声を解読し、トレーニング時間を短縮し、文字起こしを強化し、さらには次世代のニューラル人工知能をPoweringするAI音声ツールを設計することになるかもしれません。
「言語は、無菌の研究室ではなく、混沌とした社会的文脈の中で発生するものです」とGoldstein氏は言います。「私たちの研究では、人間の認知モデルとAIモデルは、会話を処理するためのより深く柔軟なコードを共有する可能性があることが示されています。」
記録は、脳の表面に直接電極を設置するECoG（electrocorticography）を用いて収集されました。この手法は、侵襲的ではありますが、ニューラル活動を忠実度の高い方法で観察することができます。Goldstein氏のチームは、すでにエンドツーエンドの手術のためにモニタリングを受けている患者の脳活動を記録し、孤立した単語の手がかりや人工的なプロンプトではなく、自発的な日常会話をキャプチャーしました。
脳とAIのつながりは、IBM® Researchの技術革新にインスピレーションを与えた。科学者たちは、従来のメモリーと演算のボトルネックをなくすことで、神経アーキテクチャーを模倣したNorthPoleのようなチップを開発しました。IBMのプロトタイプは、主要なGPUよりも最大46.9倍高速に大規模なAIモデルで推論を実行するという点で驚くべき効率性を示しています。
研究では、神経信号とWhisperのモデル埋め込みが高度な線形整合を示しており、脳が言語を硬直した分離された段階ではなく、ディープラーニングシステムのように柔軟で重なり合う層で処理していることを示唆していることが判明しました。音響的、意味的、文法的な情報は、脳やAIモデル内の孤立した領域に限定されていませんでした。代わりに、これらは同じ層内で融合しているように見え、意味の共有された最適化戦略を示唆しています。
「タスクに対して最適化されたシステムがあるというこの考え方は、心理言語学の概念と相関しているものの、正確ではない表現を導き出します。これは、脳が情報を処理する方法についての新しい考え方です」とGoldstein氏は説明します。
脳の言語機能を音声用、文法用、意味用など個別のモジュールに分割していたこれまでの見解とは異なり、チームの研究結果は、脳がディープラーニング・モデルのように、統合化された領域でこれらすべてを同時に処理できることを示唆していると指摘しています。エンドツーエンドでタスクを完了できるようにトレーニングされています
OpenAIによって開発されたWhisperは、音響入力をコヒーレント言語に変換するという脳のタスクとアーキテクチャーが類似しているため、選ばれました。「脳は言葉を受け取るのではなく、音を受け取るのです」とGoldstein氏は言います。「Whisperは、生の音声をレイヤーごとにテキストに変換することで、これを模倣します。」
さらに、チームはセマンティック・シグナルが実際に話し始める前に検出できることがあることを発見しました。これは、脳が音声の前に意図や意味を事前にエンコードし、思考と表現の境界線をさらに曖昧にする可能性があることを示唆しています。
Goldstein氏は、この画期的な進歩により、リアルタイムの文字起こしが強化され、音声アシスタントが改善され、企業向けのよりスマートなAIカスタマー・サービス・エージェントが実現できると指摘しています。アイデアは、AIモデルを人間の脳信号に近づけることで、特にノイズの多い現実世界の状況では、何十万時間ものトレーニングを必要とせずに性能を向上させることができるという考え方があります。
「ニューラル信号や人間のニューラル表現を使用して将来の音声テキスト変換モデルを制約すれば、これらのモデルのパフォーマンスが向上する可能性がある」とGoldstein氏は述べています。「でも推測の域を出ません。私たちはそれを直接テストしていません。」
文字起こしだけでなく、意味を脳の働きに似た形で表現したデータで訓練された、未来の音声アシスタントを想像してみてください。これにより、トレーニングに必要なデータ量が減り、コールセンターや運転支援システムなどの予測不可能な環境での堅牢性が向上します。
この研究は支援技術にも期待しています。内部言語シグナルを解読することで、変性疾患を抱えている人や話す能力を失った個人のコミュニケーションを回復できる可能性があります。大規模な言語モデルは足場として機能し、大まかなニューラル意図を文法的に一貫した言語に変換するのに役立ちます。
「問題が認知的ではなく、筋肉の制御に関するものであれば、最終的には脳から意味を解読し、人々のコミュニケーションを支援するデバイスを構築するかもしれません」と彼は言います。「しかし、この研究では侵入的な方法を用いました。実用化のために何かを構築している場合は、非侵襲的に動作する必要があり、それらの信号はよりノイズが多くなります。」
また推測のフロンティアでありマインドリーディングですGoldstein氏は慎重です。「話すことは、思考を形成するプロセスの一部です」と彼は言います。「私たちは、頭の中ですべてを完全に形にして、ただ『送信』を押すだけのわけではありません。概念レベルでは何かを把握できるかもしれませんが、必ずしもきめ細かい社内モノローグは必要ありません。」
それでも、この研究の初期の証拠からは、言葉が話される前の脳信号に意味論的コンテンツの痕跡が見つかっており、十分な解像度とコンテキストがあれば機械は誰かの意図を予測できる可能性があることを示唆しています。
Goldstein氏は、WhisperやGPTのような今日の言語モデルは、基本的にフィード・フォワード・アーキテクチャー、つまりデータが1方向に流れるのに対し、脳は再帰的でフィードバック主導型であることを強調しています。「脳の最終状態が次のインプットとなるのです」と彼は言います。「そこには、自己修正の繰り返しがあります。それは大きな違いです。」
同氏は、出力が将来の入力にリアルタイムで通知する同様のフィードバック・ループを組み込むことで、将来のAIシステムが能力を強化できることを示唆しています。これは、言語や、ロボット工学や自律エージェントなど、対話を通じて学習するあらゆるシステムに影響を与えます。
この研究は、新しい種類の学際的なコラボレーションへの扉も開きます。Goldstein氏の研究室では現在、ビジョン、音、動きなどのマルチモーダル入力を、人々が世界をどのように体験しているかをよりよく反映するAIシステムにどのように統合できるかを探求しています。
「身体的、視覚的、聴覚的など、人間が使用するのと同じモダリティーを採用し、同様の方法でトレーニングされたモデルを構築できれば、脳のモデリングにもっと近づくかもしれません」と彼は言います。
将来を見据えて、Goldstein氏はより静かなものに目を向けています。社会的なおしゃべりや反応的なスピーチではなく、内省です。
「人々は自分自身と話し、自分の内部状態を説明しています。これが私が次に目指したいところです」と彼は言います。「社会的なやり取りではなく、静かな心の声です。」
彼は、社内の対話（最もプライベートな会話）をモデル化することで、意識と認知についての深い洞察を提供できると信じています。しかしそれは倫理的な問題をはらんでいます。たとえ不完全であっても、機械が私たちの考えを盗聴できたらどうなるでしょうか。
「監視、行動操作、意図しない結果について真剣に考える必要があります」と彼は警告します。「個人的には驚きはありませんが、備えをしておく必要があります。この種の行動がどのように展開するかを理解するために、参考情報を割り当てる必要があります。」
Goldstein氏は、センセーショナルな報道を避けています。頭脳はコンピューターではなく、AIも頭脳ではありません。しかし、この2つの類似点は、表面的な比喩以上の可能性があります。
「これは一歩前進だ」と彼は言います。「しかし、私たちの脳が臨機応変に言葉をつなぎ合わせる方法にはまだ魔法のような不思議さがあります。」
IBM® Granite™をご紹介します。ビジネス向けに特化し、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。
watsonxプラットフォームにある基盤モデルのIBMライブラリーを探索し、ビジネスに合わせて自信を持って生成AIを拡張します。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。
ビジネスに合わせて生成AIを確実に拡張できるように、IBM watsonxプラットフォームにあるIBMライブラリーの基盤モデルの詳細を学びましょう。