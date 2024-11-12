高度な数学や科学研究などの専門分野では、信頼できるAIの自己評価を確保することはさらに困難です。つまり、結果を検証し、AIシステムの信頼性と軌道を維持するためには、人間の専門家が必要になることが多いのです。

Varshney氏は、「それを行うために、多肢選択式の回答をシャッフルするなど、さまざまなトリックがあります」と言います。

QueryPalの創設者兼CEOであるDev Nag氏によると、MetaのSelf-Taught Evaluator（自己学習評価手法）は、人間の判断を増幅し拡張するものであり、人間をタスクから排除するものではありません。

「教師が、何が良い答えなのか悪い答えなのかを理解して練習問題を作成する方法と似ていると考察してください」とNag氏は言います。「AlphaGoが自己プレイに取り組む前に囲碁のルールを基盤として使用したのと同じように、Self-Taught Evaluatorは人間が確立した品質基準を基礎にした上で、人間の判断を暗黙のうちに埋め込んだ合成トレーニング例を生成します。」

自己監視型 AI であっても、定期的な監査によって隠れた偏見や問題を発見できる可能性があると、Arrive AI の会長兼 CEO である Dan O'Toole 氏は言います。

「複数のAIモデルを採用して同じ評価を個別に実行するか、またはそれらを順番に連鎖させることで、エラーを減らし、潜在的な問題を浮き彫りにすることができます」と彼は言います。説明可能性も不可欠です。「思考の連鎖は、透明性を確保し、信頼性を高めるための重要なステップです。」

O'Toole氏は、高度な数学や科学の研究などの分野には、特殊なメトリクスが不可欠であると強調しています。たとえば、Meta社は汎用的な評価にMT-BenchとRewardBenchを使用していますが、数学的問題解決にはGSM8Kのようなベンチマークが適している、と彼は言います。CRUXEvalはコードの推論を支援し、FactKB、PubMed、SciBenchのようなドメイン固有のベンチマークは、モデルが特定のニーズを満たしていることを確認するのに役立ちます。

Nag氏は、特に専門分野では、性能の測定と信頼性の確保が非常に重要であると強調しています。彼は、最終的なベンチマークは、成果が現場で人間の専門家によって行われたアセスメントとどの程度一致しているかであるべきだと考えています。

「Self-Taught EvaluatorがRewardBenchで人間の判断に対して88.7%の同意率を得ているのは強力な基準ですが、一貫性、説明可能性、システムのエッジケース識別能力など他の要因の追跡も同様に重要です」と彼は述べています。「AlphaGoのセルフプレイが人間のチャンピオンに対する性能によって検証されたように、評価システムはドメインの専門家のパネルに対して定期的にテストされる必要があります。」

EisnerAmperでアドバイザリーおよびテクノロジー・サービスを担当するジェン・クラークは、AI開発には安全性と効果的な進歩の両方を確保するための構造化されたフレームワークが必要だと強調します。

「AIが進歩し続ける中、科学的手法、強力なコミュニティ、共同ネットワークなど、人間の研究をサポートしてきた方法論に頼ることも重要です」と彼女は言う。「AIの安全性をクラウド・ソーシングし、AI開発のスピードと規模を管理するには、ここに集中して取り組むことが不可欠です。」