IBMニュースレター
The DX Leaders
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
LLMベンチマークは、大規模言語モデル(LLM)のパフォーマンスを評価するための標準化されたフレームワークです。これらのベンチマークは、サンプル・データ、特定のスキルに関するLLMをテストするための一連の質問またはタスク、パフォーマンスを評価するためのメトリクス、およびスコアリング・メカニズムで構成されています。
モデルは、コーディング、常識、推論などの機能に基づいてベンチマークされます。その他の機能には、機械翻訳、質問回答、テキスト要約などの自然言語処理が含まれます。
LLMベンチマークは、モデルの開発と強化において重要な役割を果たします。ベンチマークは、モデルの優れている点と改善の余地を強調する定量的な尺度を使用して、LLMの学習の進捗状況を示します。
これは、ファイン・チューニング・プロセスを導き、LLMの研究者や開発者がこの分野を前進させるのに役立ちます。また、さまざまなモデルの客観的な比較も提供し、ソフトウェア開発者や組織がニーズに適したモデルを選択する際にも役立ちます。
LLMベンチマークは簡単に動作します。これらは、LLMが達成しなければならないタスクを提供し、特定のメトリクスに従ってモデルのパフォーマンスを評価し、そのメトリクスに基づいて採点します。各ステップの詳細な仕組みは次のとおりです。
LLMベンチマークには、コーディング・チャレンジ、大規模なドキュメント、数学の問題、現実世界の会話、科学的な質問などのサンプル・データがすでに用意されています。常識的な推論、問題解決、質問への回答、要約の作成、翻訳など、さまざまなタスクも用意されています。これらはすべて、テストの開始時にモデルに与えられます。
ベンチマークを実行する場合、次の3つのアプローチのいずれかでモデルに導入されます。
テストが完了すると、ベンチマークは、モデルのアウトプットが期待されるソリューションまたは標準回答にどれだけ近いかを計算し、0から100までのスコアを生成します。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
ベンチマークでは、LLMのパフォーマンスを評価するためにさまざまなメトリクスが適用されます。一般的なものは以下のとおりです。
正確度または精度 は、正しい予測の割合を計算します。
再現率は感度率とも呼ばれ、真陽性、つまり実際の正しい予測の数を定量化します。
F1 スコアは、精度と再現率の両方を1つのメトリクスに組み合わせます。偽陽性や偽陰性を相殺するために、2つの測定値を同等の重みを持つものとみなします。F1 スコアの範囲は0から1で、1は優れた再現率と精度を意味します。
完全一致は、LLMが正確に一致する予測の割合であり、翻訳と質問への回答にとって貴重な基準です。
困惑度は、モデルの予測精度を測定します。LLMの困惑度スコアが低いほど、タスクを理解する能力が優れていることを示します。
BLEU(Bilingual Evaluation understudy)は、LLMが予測した翻訳文と人間が作成した翻訳文のn-gram(隣接するn個のテキスト記号のシーケンス)の一致度を計算することで、機械翻訳を評価します。
要約評価のための想起指向型学習者(ROUGE)はテキスト要約を評価し、いくつかのタイプがあります。例えば、ROUGE-Nは要約に対してBLEUと同様の計算を行いますが、ROUGE-Lは予測された要約と人間が作成した要約の間の最長共通部分列を計算します。
通常、より包括的かつ堅牢な評価を行うために、これらの定量的指標の1つ以上が組み合わされます。
一方、人間による評価には、一貫性、関連性、意味的意味などの定性的指標が含まれます。人間の評価者がLLMを検査して採点すると、より微妙な評価が可能になりますが、労力がかかり、主観的で、時間がかかる可能性があります。したがって、定量的指標と定性的指標の両方のバランスが必要です。
ベンチマークはLLMパフォーマンスの確かな指標ですが、モデルが現実世界でどれだけうまく動作するかを予測することはできません。LLMベンチマークの限界をいくつかご紹介します。
モデルが特定のベンチマークで可能な限り最高のスコアに到達したら、そのベンチマークをより困難なタスクで更新して、有用な尺度にする必要があります。
LLMベンチマークは、主に幅広い主題と多様なタスクから得られたサンプル・データを使用するため、エッジ・シナリオ、専門分野、または特定のユースケースには適したメトリクスではない可能性があります。
LLMベンチマークでは、モデルの現在のスキルのみをテストできます。しかし、LLMが進歩し、新しい機能が出現するにつれて、新しいベンチマークを作成する必要があります。
LLMがベンチマークと同じデータセットでトレーニングされると、過剰適合が発生する可能性があります。過剰適合とは、モデルがテスト・データでは適切に機能するが、実際のデータでは適切に機能しないという現象です。その結果、LLMの実際の能力を反映しないスコアが算出されることになります。
LLMリーダーボードは、さまざまなベンチマークに基づいたLLMのランキングを公開しています。リーダーボードは、無数のLLMを追跡し、それらの性能を比較する方法を提供します。LLMリーダーボードは、使用するモデルを決定するのに特に役立ちます。
通常、各ベンチマークには独自のリーダーボードがありますが、独立したLLMリーダーボードも存在します。例えば、Hugging Face にはリーダーボードのコレクションがあり、その1つは、ARC、HellaSwag、MMLU、GSM8K、TruthfulQA、Winogrande ベンチマークに基づいて複数のオープンソース・モデルをランク付けするオープンLLMリーダーボードです。
研究者は、LLMベンチマークを次の2つの方法で分類しています。1
評価基準:LLM評価メトリクスは、グラウンド・トゥルースまたは人間の好みのいずれかになります。地上検証データとは、真実であると仮定された情報を指し、人間の好みは現実世界の使用状況を反映した選択のことです。
質問のソース:プロンプトは静的ソースまたはライブソースから取得できます。静的プロンプトには事前定義された質問が含まれますが、ライブ・プロンプトはインタラクティブな環境で作成された質問です。
ベンチマークは、これらのカテゴリの1つ以上に分類されます。ここでは、一般的なベンチマークの仕組みをご紹介します。
ARCは、7,000問を超える小学校レベルの自然科学の質問を通じて、LLMの質問応答能力と推論能力を測定します。これらの質問は、簡単なセットとチャレンジセットに分かれています。採点は簡単で、モデルは正解ごとに1ポイントを獲得し、複数の解答を提供し、そのうちの1つが正解の場合は1/Nポイントを獲得します。2
Chatbot Arenaは、2台の匿名チャットボットを対決するオープン・ベンチマーク・プラットフォームです。ユーザーは「アリーナ」で両方のチャットボットとランダムに現実世界で会話をし、どちらを好むか投票します。その後、モデルの正体が明らかになります。このクラウド・ソーシングされたペアワイズ比較データは、さまざまなLLMのスコアを推定し、おおよそのランキングを作成する統計手法に入力されます。サンプリング・アルゴリズムはモデルのペアリングにも使用されます。1
GSM8Kは、LLMの数学的推論スキルをテストします。小学校レベルの数学の文章題が8,500問収録されています。解決策は数式ではなく自然言語の形式で収集されます。AI検証者はモデル・ソリューションを評価するようにトレーニングされています。3
HellaSwagは、「敵対的な世代の状況に対する、より困難な結末、より長いコンテキスト、低ショットのアクティビティー」の頭字語です。このベンチマークは常識的推論と自然言語推論を中心にしています。モデルは、いくつかの可能な結末から選択して文章を完成させるタスクを課されます。これらの結末には、現実的でありながら一見間違った答えを生成するアルゴリズムである敵対的フィルタリングによって作成された誤った答えが含まれます。HellaSwagは、フューショットとゼロショットの両方のカテゴリーの精度を評価します。4
HumanEvalは、コード生成、特に機能の正確性の観点からLLMのパフォーマンスを評価します。モデルには解決すべきプログラミング問題が与えられ、対応する単体テストに合格するかどうかに基づいて評価されます。これは、特定のユニット・テストに合格することに基づいてコードが正しいかどうかをテストする人間のソフトウェア開発者に似ています。HumanEvalベンチマークは、pass@kと呼ばれる独自の評価指標を使用します。これは、コーディング問題に対するk個の生成されたコード・ソリューションのうち少なくとも1つがその問題の単体テストに合格する確率です。5
MMLUは、LLMの知識の広さ、自然言語理解の深さ、得られた知識に基づいて問題を解決する能力を評価するベンチマークです。MMLUのデータセットには、57科目にわたり15,000問を超える多肢選択式の一般知識の質問が含まれています。評価は、フューショットおよびゼロショットの設定でのみ行われます。MMLU ベンチマークは、各科目におけるモデルの精度をスコア化し、それらの数値を平均して最終スコアを算出します。6
MBPP(別名、Mostly Basic Python Problems)は、もう1つのコード生成ベンチマークです。900 以上のコーディングタスクのコーパスがあります。HumanEvalと同様に、一連のテスト・ケースに合格することに基づいて機能の正確性を評価します。評価は、フューショットとファイン・チューニングされた設定で行われます。MBPPは、モデルからの任意のサンプルによって解決される問題の割合と、それぞれのタスクを解決するサンプルの割合という2つのメトリクスを使用します。7
Chatbot Arenaの研究者らは、LLMがどれだけうまく対話に参加し、指示に従うことができるかをテストするために設計されたMT-Benchも作成しました。このデータセットは、コーディング、抽出、知識 I(STEM)、知識 II(人文科学と社会科学)、数学、推論、ロールプレイ、ライティングの8つの領域でそれぞれ10問ずつの自由形式のマルチターン質問で構成されています。MT-BenchはGPT-4LLMを使用して他のLLMの応答を評価します。8
HumanEvalと同様に、SWE-bench は問題解決に重点を置いて、LLMのコード生成スキルをテストします。モデルには、特定のコード・ベースでバグを修正したり、機能要求に対応したりするタスクが課せられます。ベンチマークの評価指標は、解決されたタスクインスタンスの割合です。9
大規模な言語モデルは、ハルシネーション(幻覚)を起こす傾向があり、その結果、出力が不正確になります。TruthfulQAベンチマークは、質問に対して真実の回答を生成するLLMの能力を測定することで、この問題に取り組むことを目的としています。そのデータセットには、38の科目にわたり800問を超える質問が含まれています。TruthfulQAは、人間による評価と、BLEU および ROUGE メトリクスに基づいてファイン・チューニングされた GPT-3LLMを組み合わせて、有益性と真実性に関する人間による評価を予測します。10
WinograndeはLLMの常識的推論機能を評価します。これは、敵対的フィルタリングも使用する44,000件のクラウドソーシングされた問題の膨大なデータ・セットを備えた、オリジナルのWinograd Schema Challenge(WSC)ベンチマークに基づいています。採点は正確さに基づいて行われます。11
watsonxプラットフォームにある基盤モデルのIBMライブラリーを探索し、ビジネスに合わせて自信を持って生成AIを拡張します。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。