大規模言語モデル（LLM）は、単語の表現を正確に理解する一方で、事実の表現が曖昧になっていることがあります。
ハルシネーションと呼ばれるこれらのミスは、無害なバグではありません。AIシステムが言語を生成する方法にある根本的な問題が指摘されています。モデルはデータベースから事実を引き出すのではなく、トレーニング・データ内のパターンに基づいて何が適切と思われるかを予測します。その推測は、偽の見積もり、でっち上げられるポリシー、および自信を持って行われる虚偽の請求につながる可能性があります。研究者たちは現在、これらのシステムの信頼性を高める新しい方法に取り組んでおり、回答の方法や、一時停止、修正、忘れるべきタイミングを教えています。
「本当に問題なのは、この非決定論的な回答です」とIBMのチーフ・サイエンティストであるRuchir Puriは、IBM Thinkのインタビューにこう答えています。「同じ質問、同じ意図もあり、その表現方法によっては異なる回答が生成されることがあります。深刻な問題のためにこれらのモデルを使用しているのであれば、これは大きな問題です」
OpenAIの最新のベンチマークの結果は、この問題を浮き彫りにしています。o3モデルでは、公人に関する事実の正確性をテストするデータセットであるPersonQAで33%の時間でハルシネーションを起こしたと報告されています。O4-miniモデルはもっと悪く、一般知識のプロンプトに対する10回の回答のうち8回近くで情報を捏造しました。これらは不明瞭なシステムではなく、法律研究、医療に関する問い合わせ、経営幹部の意思決定支援などのタスクでテストされています。
一部の専門家は、データが不完全な全体像を描いており、ハルシネーションは全体的には増加していないと述べています。
「私たちは本当にメリットを享受しています」と、データサイエンティストでありSuperShifts: Transforming How We Live, Learn and Work in the Age of Intelligenceの共著者であるJa-Naé Duane氏はIBM Thinkのインタビューに答え、Gemini 2.0 Flashは、2021年には22%であったのに対し、現在ではテストケースの1%未満でハルシネーションを引き起こすと付け加えました。「はい、まだ長い道のりがありますが、私たちは絶対に正しい方向に向かっています」
Duane氏は、ハルシネーションは必ずしも悪化したわけではないものの、より目に見えるようになったと強調しました。
「今、リスクはより高まっています」と同氏は言います。「私たちはこれらのモデルを法的ワークフロー、医療現場、エンタープライズ・ツールに導入しています。かつてはチャットボットで気づかれなかったミスが、今では重大な責任となっています」
Gemini 2.0 Flashのような最先端のシステムではハルシネーションが大幅に減少しましたが、他のシステム、特に複雑な推論のために構築されたモデルでは、依然として苦労しています。「こうした推論に重点を置いたモデルは、より困難な問題を解決するために推進されています」とDuane氏は説明します。「つまり、多くの場合、確実にできることのエッジに近いところで運用されているということです。その結果、正当と思われる回答が生成されないリスクが高まるのです」
同氏は、問題を解決するには規模以上のものが必要だと主張し、「もはや大きなモデルを構築することだけではありません」と言います。「私たちは、単に何を言うべきかだけでなく、それが重要な理由と、重要なときに真実を根付かせる方法を理解するアーキテクチャーを必要としています」
Duane氏は、より優れたモデルと、それをサポートするように設計されたシステム、メモリー、バリデーター、エージェントが連携して働くことで、真の進歩がもたらされると信じています。「私たちは、モデル・インテリジェンスがパズルの1つのピースにすぎない段階に入っているのです」と同氏は述べています。「コンテキスト管理、リアルタイム学習、適応型ツールも同様に重要になるでしょう」
大規模な言語モデルの仕組みを知ることは、それらが物事を誤りに導くことがある理由を理解するために不可欠です。LLMは、大量のテキストから学習したパターンに基づいて文中の次の単語を予測します。データベースから事実を引き出すのではなく、経験に基づいた推測をしているのです。これは、特にトピックが明確でない場合、珍しい場合、またはモデルがトレーニングされた内容を超えている場合に、正確に思えますが虚偽の回答につながる可能性があります。
ハルシネーションはシステムのバグではないため、排除するのが困難です。これらは、確率モデルのしくみに内在する特徴です。トレーニングデータに確固たるパターンが利用できない場合、またはプロンプトがあまりにも曖昧であるか、自由形式である場合、モデルはもっともらしく見えるものを発明する可能性があります。
また、より哲学的な質問も出てきます。AIモデルが何かを発明したとき、それは失敗するのか、それとも創造するのか？
Puriは、モデルが推論においてより強力になるにつれて、ハルシネーションを完了するよりも「創造的」な動作を示す可能性があると指摘しています。「創造性にはある種のハルシネーションが存在すると主張することもできるでしょう」と同氏は言います。「想像もできないことを想像してみてください。しかし、エンタープライズ・アプリケーションにおいては、それは強みではなく、負債となります」
IBMの研究者であるPayel Dasは、モデルが情報を処理する方法を再考することでこの問題に取り組もうとしている1人です。「それは進歩のパラドックスです」とDasはIBM Thinkのインタビューで語ります。「これらのモデルは推論については改善されていますが、記憶だけでは必ずしも改善されていません。より困難な問題を解決できるとしても、基本的な問題を解決できていないのです」
IBMの彼女のチームは、モデルに編集可能な短期記憶の一形態を与えるように設計された記憶増強システムであるLarimarを開発してきました。その目的は、システム全体を再トレーニングすることなく、必要に応じてモデルに事実を修正したり忘れたりすることです。現在のLLMに大きく欠けているリアルタイムの柔軟性が提供されます。
「今日のモデルは静的で脆弱です」と彼女は言います。「顧客を完全に再トレーニングしなければ、会話の途中で何かを教えたり、理解を深めてもらったりすることはできません。Larimarは、より柔軟に対応できるようにするための一歩です」
他のメモリベースのアプローチも有望であることを示しています。Microsoftの研究者が開発したMemReasonerは、会話の初期段階から関連情報を選択して結びつけることで、長い順序にわたるモデルの推論をより効果的に支援することに焦点を当てています。IBM独自のCAMELoTプロジェクトは、大量のテキストや拡張されたやり取りを扱う際にモデルが一貫性を保つのを支援するために設計されています。
研究室の外では、Vectaraのような企業がハルシネーションに取り組むための実用的なツールを開発しています。Vectaraの「ガーディアン・エージェント」は、AIのアウトプットをリアルタイムで監視し、ユーザーに届く前にエラーを書き換えます。単一の修正で問題が解決することはないものの、メモリと修正のストラテジーを組み合わせることは前進への強力な一歩であるとDasは言います。
「すべての間違いをなくすことはできません」とDasは述べます。「人々が間違いを犯すのと同じように。しかし、学習、適応、修正の各機能に優れたモデルを作ることはできます。そして、それが大きな違いを生みます」
生成AIがもたらす新たな課題、AIモデルおよびMLモデルを制御する必要性、信頼性と透明性を高めた説明可能なAIフレームワークを構築する手順をご紹介します。
IBM watsonx.governanceを使用すれば、生成AIモデルをあらゆる場所から管理したり、クラウドまたはオンプレミスにデプロイしたりできます。
AIガバナンスが、どのように従業員のAIに対する信頼向上や、導入とイノベーションの加速、顧客からの信頼向上に役立つかをご覧ください。
IBMコンサルティングを活用して、EUのAI法に備え、責任あるAIガバナンスに取り組みましょう。