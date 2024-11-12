AIモデルはますます自分自身を評価するよう求められており、誰が監視者を監視するのか、というクリティカルな疑問が生じています。
AI企業は、他のAIシステムを評価するためのモデルを開発しており、従来の人間によるアセスメント方法からの転換を示しています。たとえば、Metaの新しいモデルは、人間のインプットなしでAI性能を評価することができます。また、研究者の間では、自動テストの精度と限界についての議論が巻き起こっています。
自己学習評価手法では、AIが生成したトレーニング・データと思考連鎖手法を使用して、科学、コーディング、数学の回答を評価します。目標は透明性ですが、リスクが伴います。「これは大きな問題です。検証者の検証です」とIBMフェローのKush Varshney氏は言います。AIの自己評価には効率性向上を期待できますが、深刻なリスクも伴います。Varshney 氏と IBM のチームは、他の AI のアウトプットを評価できるLLM を審査員とするモデル（LLM-as-a-judge models）の評価メトリクスを開発しています。それでも、Varshneyが言うように、「これはまだまだ未解決の研究問題です。」
中心的な懸念は、AIモデルが自ら改善できるという信頼を得られるかどうか、あるいは自らの誤りを増幅させるリスクがあるかどうかです。
「マイクをスピーカーの近くに置くことを考えてみてください」とVarshney氏は言います。「あらゆるフィードバック・システムでは、エラーやノイズが増幅されます。」
Meta社の自己学習評価手法は、人間が思考プロセスを説明するのと同じような方法で、推論証跡を提供することで、これらのリスクを軽減しようとしています。しかし、合成データや自己改善に依存すると、モデルの判断にバイアスはないのかという疑問が生じます。バイアスは、AIシステムのアウトプットが不公平または歪んだ仮定を反映している場合の結果であり、通常は、バイアスがかかったデータやアルゴリズムの結果として生じるものです。
「LLM審査員にバイアスがないようにすることを目標としなければならず、彼らのバイアスを評価する必要があります、と " Varshney氏は言います。1つの方法では、多肢選択式の回答をシャッフルして、モデルが位置バイアスを示すかどうか、つまり1つの回答が他の回答よりも優先されるかどうかを判断します。冗長性バイアスや自己強調バイアスと並んで、ポジション（位置）バイアスもすべての評価を歪める可能性があります。「これらのリスクを管理することは AI 開発の一部」だとVarshney 氏は言います。責任あるAIの進歩には、バイアスの特定と軽減が必要です。
高度な数学や科学研究などの専門分野では、信頼できるAIの自己評価を確保することはさらに困難です。つまり、結果を検証し、AIシステムの信頼性と軌道を維持するためには、人間の専門家が必要になることが多いのです。
Varshney氏は、「それを行うために、多肢選択式の回答をシャッフルするなど、さまざまなトリックがあります」と言います。
QueryPalの創設者兼CEOであるDev Nag氏によると、MetaのSelf-Taught Evaluator（自己学習評価手法）は、人間の判断を増幅し拡張するものであり、人間をタスクから排除するものではありません。
「教師が、何が良い答えなのか悪い答えなのかを理解して練習問題を作成する方法と似ていると考察してください」とNag氏は言います。「AlphaGoが自己プレイに取り組む前に囲碁のルールを基盤として使用したのと同じように、Self-Taught Evaluatorは人間が確立した品質基準を基礎にした上で、人間の判断を暗黙のうちに埋め込んだ合成トレーニング例を生成します。」
自己監視型 AI であっても、定期的な監査によって隠れた偏見や問題を発見できる可能性があると、Arrive AI の会長兼 CEO である Dan O'Toole 氏は言います。
「複数のAIモデルを採用して同じ評価を個別に実行するか、またはそれらを順番に連鎖させることで、エラーを減らし、潜在的な問題を浮き彫りにすることができます」と彼は言います。説明可能性も不可欠です。「思考の連鎖は、透明性を確保し、信頼性を高めるための重要なステップです。」
O'Toole氏は、高度な数学や科学の研究などの分野には、特殊なメトリクスが不可欠であると強調しています。たとえば、Meta社は汎用的な評価にMT-BenchとRewardBenchを使用していますが、数学的問題解決にはGSM8Kのようなベンチマークが適している、と彼は言います。CRUXEvalはコードの推論を支援し、FactKB、PubMed、SciBenchのようなドメイン固有のベンチマークは、モデルが特定のニーズを満たしていることを確認するのに役立ちます。
Nag氏は、特に専門分野では、性能の測定と信頼性の確保が非常に重要であると強調しています。彼は、最終的なベンチマークは、成果が現場で人間の専門家によって行われたアセスメントとどの程度一致しているかであるべきだと考えています。
「Self-Taught EvaluatorがRewardBenchで人間の判断に対して88.7%の同意率を得ているのは強力な基準ですが、一貫性、説明可能性、システムのエッジケース識別能力など他の要因の追跡も同様に重要です」と彼は述べています。「AlphaGoのセルフプレイが人間のチャンピオンに対する性能によって検証されたように、評価システムはドメインの専門家のパネルに対して定期的にテストされる必要があります。」
EisnerAmperでアドバイザリーおよびテクノロジー・サービスを担当するジェン・クラークは、AI開発には安全性と効果的な進歩の両方を確保するための構造化されたフレームワークが必要だと強調します。
「AIが進歩し続ける中、科学的手法、強力なコミュニティ、共同ネットワークなど、人間の研究をサポートしてきた方法論に頼ることも重要です」と彼女は言う。「AIの安全性をクラウド・ソーシングし、AI開発のスピードと規模を管理するには、ここに集中して取り組むことが不可欠です。」
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、デプロイしましょう。わずかなデータ、わずかな時間でAIアプリケーションを構築できます。