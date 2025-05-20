OpenAIの最新のベンチマークの結果は、この問題を浮き彫りにしています。o3モデルでは、公人に関する事実の正確性をテストするデータセットであるPersonQAで33%の時間でハルシネーションを起こしたと報告されています。O4-miniモデルはもっと悪く、一般知識のプロンプトに対する10回の回答のうち8回近くで情報を捏造しました。これらは不明瞭なシステムではなく、法律研究、医療に関する問い合わせ、経営幹部の意思決定支援などのタスクでテストされています。

一部の専門家は、データが不完全な全体像を描いており、ハルシネーションは全体的には増加していないと述べています。

「私たちは本当にメリットを享受しています」と、データサイエンティストでありSuperShifts: Transforming How We Live, Learn and Work in the Age of Intelligenceの共著者であるJa-Naé Duane氏はIBM Thinkのインタビューに答え、Gemini 2.0 Flashは、2021年には22%であったのに対し、現在ではテストケースの1%未満でハルシネーションを引き起こすと付け加えました。「はい、まだ長い道のりがありますが、私たちは絶対に正しい方向に向かっています」

Duane氏は、ハルシネーションは必ずしも悪化したわけではないものの、より目に見えるようになったと強調しました。

「今、リスクはより高まっています」と同氏は言います。「私たちはこれらのモデルを法的ワークフロー、医療現場、エンタープライズ・ツールに導入しています。かつてはチャットボットで気づかれなかったミスが、今では重大な責任となっています」

Gemini 2.0 Flashのような最先端のシステムではハルシネーションが大幅に減少しましたが、他のシステム、特に複雑な推論のために構築されたモデルでは、依然として苦労しています。「こうした推論に重点を置いたモデルは、より困難な問題を解決するために推進されています」とDuane氏は説明します。「つまり、多くの場合、確実にできることのエッジに近いところで運用されているということです。その結果、正当と思われる回答が生成されないリスクが高まるのです」

同氏は、問題を解決するには規模以上のものが必要だと主張し、「もはや大きなモデルを構築することだけではありません」と言います。「私たちは、単に何を言うべきかだけでなく、それが重要な理由と、重要なときに真実を根付かせる方法を理解するアーキテクチャーを必要としています」

Duane氏は、より優れたモデルと、それをサポートするように設計されたシステム、メモリー、バリデーター、エージェントが連携して働くことで、真の進歩がもたらされると信じています。「私たちは、モデル・インテリジェンスがパズルの1つのピースにすぎない段階に入っているのです」と同氏は述べています。「コンテキスト管理、リアルタイム学習、適応型ツールも同様に重要になるでしょう」