財団モデルのベンチマーク

ニーズに合った適切な基盤モデルを見つけるには、さまざまな基盤モデルパフォーマンスベンチマークを比較します。

基盤モデルマークテストでは基盤モデル特定のタスクに対して正確な、または期待される出力を生成する能力を評価します。ベンチマークは、初歩的な数学から法律問題や金融まで幅広いトピックに関する質問に答えられるかどうか、あるいはテキストを要約できるかどうか、他言語のテキストを生成できるかどうかなど、さまざまな機能をカバーしている。

ベンチマークは、入力と期待される出力、および正確性、有害性、偏りなどの要因を測定することでモデルの反応の質を数値化する指標を含むデータセットで構成されます。

あなたが気にかけている特定のタスクに対してモデルをテストするベンチマークを探す。メトリクスをレビューすることで、実際に試す前に基盤モデル能力を評価することができます。

以下の基盤モデルベンチマークは watsonx.ai:

IBM英語理解ベンチマーク
オープンソースの英語理解ベンチマーク
オープンソース多言語言語理解ベンチマーク
基盤モデルモデルのコードベンチマーク

モデルのベンチマークスコアを見つける

基盤モデルベンチマークにアクセスするには、以下の手順に従ってください

チャットモードの watsonx.ai Prompt Labから、 モデルフィールドをクリックし、 すべての基礎モデルの表示を選択します。
モデルベンチマークタブをクリックすると、利用可能なベンチマークが表示されます。

フィルターアイコン をクリックして、比較ビューに表示するモデルやベンチマークタイプなどの要素を変更します。

点数は0点から100点まで。スコアは高い方がいい。

独自の基盤モデルベンチマーク評価の実施

watsonx.ai のモデルベンチマークの表示では、 IBM によって実施されたテストのベンチマークスコアが表示されます。 IBM は、主にUnitxtライブラリに基づく基盤モデル評価フレームワークを使用している。 Unitxtは、 IBM Research社によって開発されたオープンソースプロジェクトで、企業ユースケースにおける独自の基盤モデル評価ニーズに対応している。 IBM のモデル評価フレームワークは、LM評価ハーネスと呼ばれる別の主要なオープンソース評価フレームワークも使用しています。これらのオープンソースツールは、どちらも基盤モデルの独立評価を行うために使用できます。

このサンプルノートブックでは、LM評価ハーネスを使用して granite-13b-instruct-v2 モデルを標準ベンチマークと比較評価しています。詳細はこちらをご覧ください。 Use lm-evaluation-harness and own benchmarking data with watsonx.ai foundation models を参照してください。

詳しくは、以下のリソースを参照してください。

IBM英語理解ベンチマーク

IBM英語理解ベンチマークは、各モデルの一般的なタスクに対する能力を評価するためにIBMリサーチによって行われたテストに基づいてIBMが公表しているベンチマークです。

以下の表は、IBMベンチマークのデータセット、目標、およびメトリクスについて説明したものです。

IBM英語理解ベンチマーク
ベンチマーク名	目標	データセットの説明	メトリック
要約	大量の文章を要点をとらえた数センテンスに凝縮する。例えば、長い会議の記録から重要なアイデア、決定事項、行動項目をキャプチャするのに便利です。	モデルにテキストの要約を依頼し、AIが生成した要約と、3つのデータセットから人間が生成した要約を比較する： ' - ITダイアログ - テクニカルサポートダイアログ - ソーシャルメディアブログ	平均ROUGE-Lスコア
検索補強世代（RAG）	基盤モデル外部ソースからの知識を追加する技術。検索ステップでは、ユーザーのクエリから、外部ソースからの関連文書が特定される。生成ステップでは、これらの文書の一部がプロンプトに含まれ、関連情報に基づいた応答が生成される。	3つのデータセットに含まれる文書からの情報に基づいて質問を提出する	平均ROUGE-Lスコア
機密区分	データを情報の異なるクラスに属するものとして識別する。顧客からのフィードバックなどの情報を分類し、より効率的に情報を管理したり行動したりするのに便利です。	分類される契約内容、センチメント、感情、トーンについて評価される内容を含む、さまざまな内容の5つのデータセット。	平均F1スコア
生成	基盤モデルのプロンプトで提供される指示や合図に応じて言語を生成する。	マーケティング・メールを含む1つのデータセット	SacreBLEUのスコア
抽出	単純なテキストの一致ではなく、単語の意味に基づいてデータ内の重要な用語や言及を検索します。	モデルによって検出されたエンティティの言及と、人間が検出したエンティティの言及を比較する。データセットには、12の名前付きエンティティのデータセットと、3つのセンチメントタイプのデータセットがある。	平均F1スコア

基礎モデルのためのオープンソース英語理解ベンチマーク

オープンソースの英語理解ベンチマークは、 IBM Research によって実施されたテストの結果を示しており、そのテストでは主に学術機関や業界研究チームなどの第三者によって公開された英語データセットが使用されています。

次の表は、英語理解ベンチマークのデータセット、目標、指標について説明したものです。

watsonx.aiのオープンソース英語理解ベンチマーク
ベンチマーク名	目標	データセットの説明	メトリック	関連情報
20 ニュースグループ	テキストを分類するモデルの能力を評価する。	scikit-learnの20ニュースグループデータセットのバージョンで、約20,000のニュースグループ文書をコンピュータ、自動車、スポーツ、医学、宇宙、政治など20のカテゴリに分類している。	F1 スコア	• データセットカードについて Hugging Face
アリーナ・ハードオート	質問に答えるモデルの能力を評価する。	クラウドソーシング・プラットフォーム「チャットボット・アリーナ」に投稿されたライブデータから、500人のユーザーがプロンプトを表示。	この指標は模範解答の勝率を示している。	• データセットカードについて Hugging Face • 研究論文
AttaQ500	モデルに安全上の脆弱性があるかどうかを評価する。	欺瞞、差別、有害情報、薬物乱用、性的な内容、個人を特定できる情報（PII）、暴力のカテゴリーにおいて、有害な反応を引き起こすようにデザインされた質問。	メトリックはモデルの安全性を示す。	• データセットカードについて Hugging Face • 研究論文
BBQ （質問に対するバイアスのベンチマーク）	米国英語圏で保護されているとされるクラスの人々に関する偏った見解を含む発言を認識するモデルの能力を評価する。	バイアスを強調する質問セット。	この指標は回答の正確さを測るものだ。	• データセットカードについて Hugging Face • 研究論文
BillSum	テキストを要約するモデルの能力を評価する。	米国連邦議会とカリフォルニア州の法案をまとめたデータセット。	生成された要約のROUGE-Lスコア。	• データセットカードについて Hugging Face • 研究論文
CFPB苦情データベース	テキストを分類するモデルの能力を評価する。	消費者金融保護局（CFPB）は、信用報告書、学生ローン、送金、その他の金融サービスに関して、実際の顧客から寄せられた苦情を掲載しています。	F1 スコア	Unitxt.aiのデータセットカード
クラップンク	質問に答えるために文章中の情報を使用するモデルの能力を評価する。	長文の一問一答。	F1 スコア	• データセットカードについて Hugging Face • 研究論文
FinQA	ファイナンスの質問に答え、数値的推論を行うモデルの能力を評価する。	金融の専門家によって書かれた金融に関する8,000以上のQAペア。	この指標は回答の正確さを測るものだ。	• データセットカードについて Hugging Face • 研究論文
FLORES-101	モデルのテキスト翻訳能力を評価する。	プロの翻訳者によって101の言語に翻訳された英語版ウィキペディアの記事	SacreBLEUのスコア	• データセットカードについて Hugging Face • 研究論文
HellaSwag	常識的なシナリオ補完を行うモデルの能力を評価する。	ActivityNetと WikiHowから出典されている多肢選択問題。	この指標は回答の正確さを測るものだ。	• データセットカードについて Hugging Face • 研究論文
LegalBench	法的シナリオを推論するモデルの能力を評価する。	さまざまな法文、構造、領域をカバーする162のタスク。	F1 スコア	• データセットカードについて Hugging Face • 研究論文
MMLUプロ	困難なタスクを理解するモデルの能力を評価する。	大規模マルチタスク言語理解(MMLU)データセットの難易度を高めたバージョンで、より推論に重点を置いた問題が出題され、解答の選択肢も4つから10つに増えています。	この指標は回答の正確さを測るものだ。	• データセットカードについて Hugging Face • 研究論文
OpenBookQA	多段階の推論と豊かな文章理解を使って、多肢選択問題に答えるモデルの能力を評価する。	オープンブック形式の試験をシミュレートし、サポートとなるパッセージと複数選択肢のQ&Aペアを提供。	この指標は回答の正確さを測るものだ。	• データセットカードについて Hugging Face • 研究論文
TLDR	テキストを要約するモデルの能力を評価する。	Redditに投稿された3M以上の投稿を前処理したもので、内容の平均長さは270ワード、要約の平均長さは28ワード。	生成された要約のROUGE-Lスコア。	• データセットカードについて Hugging Face • 研究論文
ユニバーサルNER	名前付きエンティティを認識するモデルの能力を評価する。	ニュースやソーシャルメディアなど、さまざまな分野の19のデータセットを収録。データセットには名前付きエンティティのアノテーションが含まれ、13の多様な言語をカバーしている。	F1 スコア	• データセットカードについて Hugging Face

基礎モデルのためのオープンソース多言語言語理解ベンチマーク

オープンソースの多言語言語理解ベンチマークは、 IBM Research によるテスト結果を示しており、学術機関や業界研究チームなどのサードパーティによって公開された多言語データセットを使用しています。

以下の表は、多言語ベンチマークのデータセット、目標、メトリクス、ターゲット言語について説明したものである。

watsonx.aiのオープンソース多言語言語理解ベンチマーク
ベンチマーク名	目標	データセットの説明	メトリック	言語	関連情報
基礎英語	あるモデルが英語の文章を以下の言語に翻訳できるかどうかを評価します：フランス語、ドイツ語、スペイン語、ポルトガル語、日本語、韓国語。	850の主要英単語とその訳語。	この指標は、ターゲット文と参照訳文との間の単語または文字の距離を測定する文字列封じ込めスコアを示しています。	データセット英語、フランス語、ドイツ語、スペイン語、ポルトガル語、日本語、韓国語をサポート。韓国語をサポートするモデルでは、 watsonx.aiで利用可能。	オグデンの基本英単語リスト
ベレベレ	モデルの多言語読解力と質問応答力を評価。	122カ国語の問題、関連パッセージ、選択式解答。	この指標は回答の正確さを測るものだ。	watsonx.aiでは、アラビア語、フランス語、ドイツ語、日本語、韓国語、ポルトガル語、スペイン語をサポートするモデルでご利用いただけます。	データセットカードについて Hugging Face
MASSIVE	多言語テキストを分類するモデルの能力を評価する。	52言語にローカライズされ、インテントとスロットタイプの情報でアノテーションされたAmazonの音声アシスタントとのインタラクションから得られた1M以上の発話。	F1 スコア	watsonx.aiでは、アラビア語、フランス語、ドイツ語、日本語、韓国語、ポルトガル語、スペイン語をサポートするモデルでご利用いただけます。	データセットカードについて Hugging Face
英語プロンプトでMASSIVE	英語ラベルを持つ多言語テキストを分類するモデルの能力を評価する。	52言語にローカライズされ、インテントとスロットタイプの情報でアノテーションされたAmazonの音声アシスタントとのインタラクションから得られた1M以上の発話。	F1 スコア	watsonx.aiでアラビア語と韓国語をサポートするモデルで利用可能。	データセットカードについて Hugging Face
MKQA	モデルの多言語質問応答能力を評価します。	26の言語それぞれに10Kの質問と答えのペアを収録（合計260Kのペア）。	F1 スコア	watsonx.aiでは、アラビア語、フランス語、ドイツ語、日本語、韓国語、ポルトガル語、スペイン語をサポートするモデルでご利用いただけます。	データセットカードについて Hugging Face
MLSUM	多言語テキストを要約するモデルの能力を評価する。	5カ国語（フランス語、ドイツ語、スペイン語、ロシア語、トルコ語）のオンライン新聞と、CNNとDaily Mailの英字新聞から、 1.5 万以上の記事と要約のペアを収録	生成された要約のROUGE-Lスコア。	フランス語とドイツ語をサポートするモデルでは、 watsonx.aiで利用可能です。	データセットカードについて Hugging Face
XGLUE.qg	多言語テキストを理解し、テキストに関する洞察に富んだ質問を生成するモデルの能力を評価します。	19言語にまたがる11のタスク	生成された質問のROUGE-Lスコア。	フランス語、ドイツ語、ポルトガル語、スペイン語をサポートするモデルでは、 watsonx.aiで利用可能。	データセットカードについて Hugging Face
XGLUE.wpr	多言語テキストを検索し、ランク付けするモデルの能力を評価する。	19の言語にまたがる11のタスク。	情報検索とランキングの正規化割引累積利得（NDCG）スコア。	フランス語、ドイツ語、ポルトガル語、スペイン語をサポートするモデルでは、 watsonx.aiで利用可能。	データセットカードについて Hugging Face
エックスエルサム	多言語テキストを要約するモデルの能力を評価する。	1. 1.35 Mの専門家による注釈付きBBCニュース記事の要約（44言語）。	生成された要約のROUGE-Lスコア。	watsonx.aiでは、アラビア語、フランス語、日本語、韓国語、ポルトガル語、スペイン語をサポートするモデルでご利用いただけます。	データセットカードについて Hugging Face
XMMLU	初等数学、米国史、コンピュータサイエンス、法律などに関する多言語の質問に答えるモデルの能力を評価。	Massive Multitask Language Understanding (MMLU)英語データセットの翻訳。一般常識の多肢選択問題で構成されている。	この指標は回答の正確さを測るものだ。	watsonx.aiでアラビア語、フランス語、韓国語をサポートするモデルで利用可能。
エックスエヌエルアイ	モデルがどの程度多言語の文章を分類できるかを評価する。	MNLI (Multi-Genre Natural Language Inference)データセットのサブセット。このデータセットには、テキストの含意情報がアノテーションされ、14の言語に翻訳されたクラウドソース文ペアが含まれる。	この指標は回答の正確さを測るものだ。	アラビア語、フランス語、ドイツ語、スペイン語をサポートするモデルでは、 watsonx.aiで利用可能です。	GitHubのデータセットカード
XNLI（英語説明書付き	プロンプトが英語の場合に、モデルが多言語の文章をどの程度分類できるかを評価する。	MNLI (Multi-Genre Natural Language Inference)データセットのサブセットで、14言語に翻訳された、テキスト含意情報がアノテーションされた文のペアをクラウドソースしている	この指標は回答の正確さを測るものだ。	watsonx.aiでアラビア語をサポートするモデルで利用可能。	GitHubのデータセットカード
XWinograd	多言語テキストの文脈を理解し、曖昧さを解決するモデルの能力を評価する。	Winogradスキーマの多言語コレクション。わずかな単語の変化によって意味が大きく異なる文のペア。	この指標は回答の正確さを測るものだ。	ポルトガル語をサポートするモデルについては、 watsonx.ai で利用可能。	データセットカードについて Hugging Face

基盤モデルモデルのコードベンチマーク

コード・ベンチマークは、コードの生成、コードの説明、コードの修正、あるプログラミング言語から別のプログラミング言語へのコードの変換など、プログラムのコーディング作業を行うモデルの能力を評価するテストで、さまざまな基盤モデルどのようなスコアを獲得したかを示している。

これらのベンチマークは、 IBM Researchが、学術機関や業界の研究チームなどのサードパーティが公開しているコード評価データセットを使用して行ったテストの結果を示しています。

次の表は、 watsonx.ai で利用可能なコードベンチマークのデータセット、目標、対象プログラミング言語について説明したものである。

コードのベンチマーク watsonx.ai
ベンチマーク名	目標	データセットの説明	メトリック	プログラミング言語	関連情報
CanItEdit	Python、多様なコード編集シナリオに対応するモデルの能力を評価する。	人間が書いた105の指導コード編集問題。	Pass@1	Python	研究論文
CodeLingua	あるプログラミング言語から別のプログラミング言語へコードを変換するモデルの能力を評価する。	様々なプログラム言語にわたる1,700のコードサンプル。	Pass@1	C++, Go, Java, JavaScript, Python, Rust	研究論文
HumanEval	Python、コードを生成する能力、言語を理解する能力、推論する能力、アルゴリズムや簡単な数学に関連する問題を解く能力を評価する。	164 Python 人間が書いたプログラミング問題。	Pass@1	Python	研究論文
HumanEvalExplain	まずモデルにプログラミング問題の解を説明するよう求め、次に、事前に生成された説明のみを与えられた場合に、モデルがその問題を解くことができるかどうかをテストすることによって、コード・スニペットを説明するモデルの能力を評価する。	HumanEval データセットの拡張。	Pass@1	C++, Go, Java, JavaScript, Python, Rust	研究論文
HumanEvalFix	プログラムのコード・スニペットにおけるコーディング・エラーを修正するモデルの能力を評価する。	HumanEval エラーが発生したデータセットと、問題の特定に役立つユニットテスト。	Pass@1	C++, Go, Java, JavaScript, Python, Rust	研究論文
HumanEvalSynthesize	モデルのコード生成能力を評価する。	HumanEval データセットから、人間が Python から他のプログラミング言語に翻訳した164のコード問題。	Pass@1	Python C++, Go, Java, JavaScript, Rust	研究論文
MBPP	エントリーレベル（ Python ）のコーディング問題を解決するモデルの能力を評価する	974 クラウドソース Python プログラミングの問題と解決策。	Pass@1	Python	研究論文
MBPP+	Python コーディング問題を解決するモデルの能力を評価する。	MBPPデータセットに、より多くの Python プログラミング問題と、より包括的なテストケースを追加し、より厳密な評価を提供するように設計されています。	Pass@1	Python	データセットカード

ベンチマーク指標

メトリクスの中には、多肢選択式データセットに対してテストされたモデルの精度スコアなど、自明なものもある。その他はあまり知られていない。以下のリストでは、watsonx.ai:でモデルのパフォーマンスを定量化するために使用されるメトリックについて説明します：

F1: 精度と想起の最適なバランスに達しているかどうかを測定する。多くの場合、分類タスクのスコア付けに使用され、精度は全体の文のうちいくつが正しい文クラスに分類されたかを測定し、想起は分類されるべき文が分類された頻度を測定する。
正規化割引累積利益（NDCG）: 生成されたランキングを、最も関連性の高い項目がランク付けされたリストの最上位にある参照順位と比較するランキング品質指標。
ROUGE-L: 生成された要約と参照要約の類似度を測定することで、要約の品質をスコア化するために使用される。 ROUGEとは、Recall-Oriented Understudy for Gisting Evaluationの略。 Lは、最長一致の単語列に基づくスコアリングを意味する。この指標は、文レベルの語順を反映する配列内の一致を探す。
SacreBLEU: BLEU（Bilingual Evaluation Understudy）は、生成された翻訳を参照翻訳と比較するための指標です。 SacreBLEUは、テストデータセットのサンプルを提供し、トークン化を標準化された方法で管理することで、メトリックを使いやすくしたバージョンである。翻訳タスクの品質を評価するために使用されることが多いが、要約タスクのスコア付けにも使用できる。
安全: AttaQ 500ベンチマークで使用される指標で、攻撃に関連するラベルを考慮するAdjusted Rand Index (ARI) 指標と、凝集性、分離、歪み、可能性などのクラスターベースの特性を評価するシルエットスコアを組み合わせたもの。詳細については、研究論文「Unveiling safety vulnerabilities of large language models」を参照のこと。
勝率: Arena-Hard-Autoベンチマークで使用される指標で、モデルの応答がアクションの成功につながる会話の割合を示します。詳細については、研究論文「クラウドソーシングデータから高品質ベンチマークへ：アリーナハードとベンチビルダーのパイプライン」をご覧ください。