基盤モデル
ニーズに合った基盤モデルを見つけるには、関連する性能ベンチマークにおいて基盤モデルパフォーマンスを比較してください。
基盤モデルベンチマークは、特定のタスクに対して基盤モデルまたは期待通りの出力を生成する基盤モデルの能力を評価するものです。 ベンチマークでは、初等数学から法律や金融に至るまで幅広いトピックに関する質問にモデルが答えられるか、テキストを要約できるか、他の言語でテキストを生成できるかなど、さまざまな機能が評価されます。
ベンチマークは、入力と期待される出力を含むデータセット、および精度、有害性、バイアスなどの要素を測定することでモデルの応答の質を定量化するメトリックで構成されています。
自分が重視する特定のタスクに対して、そのモデルを評価したベンチマークを探してください。 メトリックを確認することで、 基盤モデル試す前に基盤モデルの性能を把握することができます。
watsonx.ai: では基盤モデル基盤モデルのベンチマークが利用可能です
モデルのベンチマークスコアを確認する
基盤モデルモデルのベンチマークにアクセスするには、以下の手順に従ってください:
チャットモード Prompt Labwatsonx.ai で、[ ] フィールド モデル をクリックし、[ ] を選択します すべての基盤モデルを表示。
「モデルベンチマーク 」タブをクリックして、利用可能なベンチマークを確認してください。
「フィルター」 アイコン
をクリックして、比較ビューに表示するモデルやベンチマークの種類などの条件を変更してください。
スコアは0から100までの範囲です。 スコアは高い方がいい。
基盤モデルモデルのベンチマーク評価を実行する
watsonx.ai の「 モデルベンチマーク 」ビューには、 IBM によって実施されたテストのベンチマークスコアが表示されます。 IBM 基盤モデル評価フレームワークを採用しています。 Unitxtは、 IBM Researchが、エンタープライズでのユースケースにおける独自の基盤モデル評価ニーズに対応するために開発したオープンソースプロジェクトです。 IBM のモデル評価フレームワークは、LM Evaluation Harnessと呼ばれる、もう1つの主要なオープンソース評価フレームワークも利用しています。 これら2つのオープンソースツールは、 基盤モデル基盤モデルの独立した評価を行うために利用できます。
詳細については、LM評価ハンスを使用して granite-13b-instruct-v2 モデルを標準的なベンチマークと比較評価するこのサンプルノートブックを順を追って確認してください。 参照 基盤モデルwatsonx.ai に対して、lm-evaluation-harness と独自のベンチマークデータを使用する。
詳しくは、以下のリソースを参照してください。
IBM 英語理解力の評価基準
IBM の英語理解ベンチマークは、各モデルの一般的なタスクを処理する能力を評価するために IBM Researchが実施したテストに基づき、 IBM が公表しているベンチマークです。
以下の表は、 IBM ベンチマークのデータセット、目標、 メトリックについてまとめたものです。
| ベンチマーク名 | 目標 | データセットの説明 | メトリック |
|---|---|---|---|
| 要約 | 大量の文章を、要点を押さえた数行に要約します。 例えば、長時間の会議の議事録から、重要なアイデアや決定事項、アクションアイテムを抽出するのに役立ちます。 | モデルにテキストの要約を作成させ、3つのデータセット( • IT関連 の対話• テクニカルサポートの 対話• ソーシャルメディアのブログ)について、AIが生成した要約と人間が作成した要約を比較する |
ROUGE-Lスコアの平均値 |
| 検索拡張生成 (RAG) | 外部ソースからの知識を用いて、 基盤モデルプロンプトを拡張する手法。 検索ステップでは、ユーザーのクエリーに基づいて、外部ソースから関連する文書が特定されます。 生成ステップでは、それらの文書の一部がプロンプトに組み込まれ、関連情報に基づいた応答が生成されます。 | 3つの別々のデータセットに含まれる文書情報に基づいて質問を送信する | ROUGE-Lスコアの平均値 |
| 機密区分 | データを、異なる情報カテゴリに属するものとして識別します。 顧客からのフィードバックなどの情報を分類するのに役立ち、情報をより効率的に管理したり、対応したりできるようになります。 | 分類対象となる契約関連の内容や、感情、情緒、口調の評価対象となる内容など、内容が多様な5つのデータセット。 | F1 の平均スコア |
| 生成 | 基盤モデルモデルのプロンプトで指定された指示や手がかりに応じて、言語を生成します。 | マーケティング用メールを含む1つのデータセット | SacreBLEU スコア |
| 抽出 | 単純なテキストの一致ではなく、単語の意味に基づいて、データ内のキーワードや言及を検出します。 | モデルが検出したエンティティの言及と、人間が検出したエンティティの言及を比較する。 データセットには、12個の名詞句を含むデータセットが1つと、3種類の感情タイプを含むデータセットが1つ含まれています。 | F1 の平均スコア |
基盤モデルモデル向けのオープンソース英語理解ベンチマーク
オープンソースの英語理解ベンチマークは、 IBM Researchが実施したテストの結果を示しており、そのテストでは主に、学術機関や産業界の研究チームなどの第三者によって公開された英語データセットが使用されています。
以下の表は、英語理解ベンチマークのデータセット、目標、 メトリックについてまとめたものです。
| ベンチマーク名 | 目標 | データセットの説明 | メトリック | 関連情報 |
|---|---|---|---|---|
| 20のニュースグループ | テキストを分類するモデルの能力を評価します。 | scikit-learnの20ニュースグループデータセットの派生版で、コンピュータ、自動車、スポーツ、医学、宇宙、政治など20のカテゴリに分類された、約2万件のニュースグループ文書が含まれています。 | F1スコア | • データセットカードの表示 Hugging Face |
| アリーナ・ハード・オート | モデルが質問に答える能力を評価します。 | クラウドソーシング・プラットフォーム「Chatbot Arena」に投稿された実データに基づく、500件のユーザープロンプト。 | メトリックは、模範解答の正答率を示しています。 | • データセットカードの表示 Hugging Face • 研究論文 |
| AttaQ 500 | モデルにセキュリティ上の脆弱性が存在するかどうかを評価します。 | 欺瞞、差別、有害な情報、薬物乱用、性的内容、個人を特定できる情報(PII)、および暴力といったカテゴリーにおいて、有害な反応を引き起こすことを意図した質問。 | メトリックトリクスはモデルの安全性を示しています。 | • データセットカードの表示 Hugging Face • 研究論文 |
| BBQ (質問応答のためのバイアス・ベンチマーク) |
米国英語話者が保護対象とみなす集団に対する偏見を含むステートメントを、モデルが認識できる能力を評価する。 | バイアスを浮き彫りにする問題集。 | メトリック指標は、回答の正確さを測るものです。 | • データセットカードの表示 Hugging Face • 研究論文 |
| BillSum | テキストを要約するモデルの能力を評価します。 | 米国連邦議会およびカリフォルニア州の法案をまとめたデータセット。 | 生成された要約のROUGE-Lスコア。 | • データセットカードの表示 Hugging Face • 研究論文 |
| CFPB苦情データベース | テキストを分類するモデルの能力を評価する。 | 消費者金融保護局(CFPB)に寄せられた、信用情報、学生ローン、送金、その他の金融サービスに関する実際の顧客からの苦情。 | F1スコア | • Unitxt.ai のデータセットカード |
| CLAPnq | 文章中の情報を用いて質問に答えるモデルの能力を評価する。 | 長文の質問と回答のペア。 | F1スコア | • データセットカードの表示 Hugging Face • 研究論文 |
| FinQA | 金融に関する質問に答え、数値的推論を行うモデルの能力を評価します。 | 金融の専門家によって執筆された、金融に関する8,000組以上のQA。 | メトリック指標は、回答の正確さを測るものです。 | • データセットカードの表示 Hugging Face • 研究論文 |
| FLORES-101 | モデルのテキスト翻訳能力を評価します。 | プロの翻訳者によって101の言語に翻訳された英語版ウィキペディアの記事 | SacreBLEU スコア | • データセットカードの表示 Hugging Face • 研究論文 |
| HellaSwag | モデルが常識に基づいたシナリオの完結を行う能力を評価する。 | ActivityNet および WikiHow から引用した選択問題。 | メトリック指標は、回答の正確さを測るものです。 | • データセットカードの表示 Hugging Face • 研究論文 |
| LegalBench | 法的シナリオについて推論するモデルの能力を評価する。 | さまざまな法的文書、構成、分野を網羅した162の課題。 | F1スコア | • データセットカードの表示 Hugging Face • 研究論文 |
| MMLU-Pro | モデルが困難なタスクを理解する能力を評価する。 | 「大規模マルチタスク言語理解(MMLU)」データセットの難易度を高めたバージョンで、推論を重視した質問が増え、回答選択肢が4つから10つに増えました。 | メトリック指標は、回答の正確さを測るものです。 | • データセットカードの表示 Hugging Face • 研究論文 |
| OpenBookQA | 多段階の推論や文章の深い理解を用いて、多肢選択式の問題に解答する能力を評価する。 | オープンブック形式の試験を模倣し、参考となる文章と多肢選択式の問答ペアを提供します。 | メトリック指標は、回答の正確さを測るものです。 | • データセットカードの表示 Hugging Face • 研究論文 |
| 要約 | テキストを要約するモデルの能力を評価します。 | Redditから収集した300万件以上の前処理済み投稿。コンテンツの平均文字数は270語、要約は28語です。 | 生成された要約のROUGE-Lスコア。 | • データセットカードの表示 Hugging Face • 研究論文 |
| 汎用NER | モデルが固有名詞を認識する能力を評価します。 | ニュースやソーシャルメディアなど、さまざまな分野からの19のデータセットが含まれています。 これらのデータセットには固有名詞の注釈が含まれており、13の多様な言語を網羅しています。 | F1スコア | • データセットカードの表示 Hugging Face |
基盤モデルモデル向けのオープンソース多言語理解ベンチマーク
オープンソースの多言語言語理解ベンチマークは、 IBM Researchが実施したテストの結果を示しており、学術機関や産業界の研究チームなどの第三者によって公開された多言語データセットを使用しています。
以下の表は、多言語ベンチマークのデータセット、目標、 メトリック、および対象言語についてまとめたものです。
| ベンチマーク名 | 目標 | データセットの説明 | メトリック | 言語 | 関連情報 |
|---|---|---|---|---|---|
| 基礎英語 | モデルが英語の文を、フランス語、ドイツ語、スペイン語、ポルトガル語、日本語、韓国語に翻訳できるかどうかを評価します。 | 850の重要な英単語とその訳語。 | メトリックは、対象文と参照翻訳との間の単語または文字の距離を測定する「文字列一致スコア」を示しています。 | このデータセットは、英語、フランス語、ドイツ語、スペイン語、ポルトガル語、日本語、および韓国語に対応しています。 韓国語に対応しているモデルでは、 watsonx.ai で利用可能です。 | オグデンのベーシック・イングリッシュ単語リスト |
| ベレベレ | モデルの多言語読解力および質問応答能力を評価する。 | 122言語の質問、関連箇所、および選択式問題の解答。 | メトリック指標は、回答の正確さを測るものです。 | watsonx.ai では、アラビア語、フランス語、ドイツ語、日本語、韓国語、ポルトガル語、スペイン語に対応したモデルで利用可能です。 | データセットカードの表示 Hugging Face |
| 超巨大 | 多言語テキストを分類するモデルの能力を評価します。 | 52言語に対応し、意図およびスロットタイプ情報が付与された、Amazonの音声アシスタントとの対話から得られた100万件以上の発話データ。 | F1スコア | watsonx.ai では、アラビア語、フランス語、ドイツ語、日本語、韓国語、ポルトガル語、スペイン語に対応したモデルで利用可能です。 | データセットカードの表示 Hugging Face |
| MASSIVE(英語のプロンプト付き) | 英語ラベルが付いた多言語テキストを分類するモデルの能力を評価します。 | 52言語に対応し、意図およびスロットタイプ情報が付与された、Amazonの音声アシスタントとの対話から得られた100万件以上の発話データ。 | F1スコア | アラビア語および韓国語に対応したモデル向けに、 watsonx.ai で利用可能です。 | データセットカードの表示 Hugging Face |
| MKQA | モデルの多言語質問応答能力を評価する。 | 26の言語それぞれについて、1万組の質問と回答が含まれています(合計26万組)。 | F1スコア | watsonx.ai では、アラビア語、フランス語、ドイツ語、日本語、韓国語、ポルトガル語、スペイン語に対応したモデルで利用可能です。 | データセットカードの表示 Hugging Face |
| MLSUM | 多言語テキストを要約するモデルの能力を評価する。 | 5カ国語(フランス語、ドイツ語、スペイン語、ロシア語、トルコ語)のオンライン新聞およびCNNやデイリー・メールなどの英語新聞から収集した、 1.5 万件以上の記事と要約のペア | 生成された要約のROUGE-Lスコア。 | フランス語およびドイツ語に対応したモデル向けに、 watsonx.ai で利用可能です。 | データセットカードの表示 Hugging Face |
| XGLUE.qg | モデルが多言語テキストを理解し、そのテキストについて洞察に富んだ質問を生成する能力を評価します。 | 19の言語にまたがる11のタスク | 生成された質問に対するROUGE-Lスコア。 | watsonx.ai では、フランス語、ドイツ語、ポルトガル語、スペイン語に対応したモデルで利用可能です。 | データセットカードの表示 Hugging Face |
| XGLUE.wpr | モデルが多言語テキストを抽出・ランク付けする能力を評価します。 | 19の言語にまたがる11のタスク。 | 情報検索およびランキングのための正規化割引累積利益(NDCG)スコア。 | watsonx.ai では、フランス語、ドイツ語、ポルトガル語、スペイン語に対応したモデルで利用可能です。 | データセットカードの表示 Hugging Face |
| XLSum | 多言語テキストを要約するモデルの能力を評価する。 | 1.35 44カ国語のBBCニュース記事について、専門家による注釈付きの要約。 | 生成された要約のROUGE-Lスコア。 | watsonx.ai では、アラビア語、フランス語、日本語、韓国語、ポルトガル語、スペイン語に対応したモデルで利用可能です。 | データセットカードの表示 Hugging Face |
| XMMLU | 初等数学、米国史、コンピュータサイエンス、法律などに関する多言語の質問に、モデルがどの程度適切に回答できるかを評価します。 | 一般知識に関する多肢選択式問題で構成される「Massive Multitask Language Understanding(MMLU)」英語データセットの翻訳。 | メトリック指標は、回答の正確さを測るものです。 | アラビア語、フランス語、韓国語に対応したモデルでは、 watsonx.ai でご利用いただけます。 | |
| XNLI | モデルが多言語の文をどの程度正確に分類できるかを評価します。 | MNLI(Multi-Genre Natural Language Inference)データセットの一部であり、テキスト上の含意情報が付与され、14の言語に翻訳されたクラウドソーシングによる文ペアが含まれています。 | メトリック指標は、回答の正確さを測るものです。 | アラビア語、フランス語、ドイツ語、スペイン語に対応したモデル向けに、 watsonx.ai で利用可能です。 | GitHub のデータセットカード |
| XNLI(英語版説明書付き) | プロンプトが英語の場合、モデルが多言語の文をどの程度正確に分類できるかを評価します。 | MNLI(Multi-Genre Natural Language Inference)データセットの一部。このデータセットには、テキスト上の含意情報がアノテーションされた、クラウドソーシングによる文ペアが含まれており、14の言語に翻訳されている | メトリック指標は、回答の正確さを測るものです。 | アラビア語に対応したモデルでは、 watsonx.ai で利用可能です。 | GitHub のデータセットカード |
| Xウィノグラード | 多言語テキストにおける文脈の理解や曖昧性の解消に関するモデルの能力を評価する。 | わずかな単語の変更によって意味が劇的に異なる文のペアである「ウィノグラッド・スキーマ」の多言語コレクション。 | メトリック指標は、回答の正確さを測るものです。 | ポルトガル語に対応しているモデル向けに、 watsonx.ai で利用可能です。 | データセットカードの表示 Hugging Face |
基盤モデルモデルのコードベンチマーク
コードベンチマークでは、コードの生成、コードの説明、コードの修正、あるいはあるプログラミング言語から別のプログラミング言語へのコード変換など、プログラム的なコーディングタスクを実行するモデルの能力を評価するテストにおいて、 基盤モデルどのようなスコアを記録しているかが示されています。
これらのベンチマークは、 IBM Researchが、学術機関や産業界の研究チームなどの第三者によって公開されたコード評価データセットを用いて実施したテストの結果を示しています。
次の表は、 watsonx.ai で利用可能なコードベンチマークのデータセット、目的、および対象プログラミング言語についてまとめたものです。
| ベンチマーク名 | 目標 | データセットの説明 | メトリック | プログラミング言語 | 関連情報 |
|---|---|---|---|---|---|
| CanItEdit | Python における、多様なコード編集シナリオに対応するモデルの能力を評価します。 | 人間によって作成された105のコード編集演習問題。 | Pass@1 | Python | 研究論文 |
| CodeLingua | あるモデルが、あるプログラミング言語のコードを別のプログラミング言語に翻訳する能力を評価する。 | さまざまなプログラミング言語にわたる1,700のコードサンプル。 | Pass@1 | C++、Go、Java、 JavaScript,、 Python、Rust | 研究論文 |
| HumanEval | モデルが、 Python コードを生成し、言語を理解し、推論を行い、アルゴリズムや初等数学に関連する問題を解決する能力を評価します。 | 人間によって作成された164の Python プログラミング問題。 | Pass@1 | Python | 研究論文 |
| HumanEvalExplain | まずモデルにプログラミング問題の解決策を説明させ、次に、以前に生成された説明のみを与えられた場合にモデルがその問題を解けるかどうかをテストすることで、コードスニペットを説明するモデルの能力を評価します。 | HumanEval データセットの拡張版。 | Pass@1 | C++、Go、Java、 JavaScript,、 Python、Rust | 研究論文 |
| HumanEvalFix | プログラムコードの断片に含まれるコーディングミスを修正するモデルの能力を評価します。 | HumanEval エラーが混入したデータセットと、問題の特定に役立つユニットテスト。 | Pass@1 | C++、Go、Java、 JavaScript,、 Python、Rust | 研究論文 |
| HumanEvalSynthesize | モデルのコード生成能力を評価します。 | HumanEval データセットに含まれる164件のコード問題を、 Python から人間の手によって他のプログラミング言語に翻訳したものです。 | Pass@1 | Python、C++、Go、Java、 JavaScript,、Rust | 研究論文 |
| MBPP | 初級レベルの Python コーディング問題を解くためのモデルの能力を評価します | 974件の Python プログラミング問題と解答(クラウドソーシングによる)。 | Pass@1 | Python | 研究論文 |
| MBPP+ | Python のコーディング問題を解くモデルの能力を評価します。 | MBPPデータセットを拡張し、より多くの Python プログラミング問題と、より包括的なテストケースを追加しました。これらは、より厳格な評価を行うことを目的としています。 | Pass@1 | Python | データセットカード |
ベンチマークメトリック
メトリック、その意味が自明です。例えば、多肢選択式データセットを用いて評価されたモデルの精度スコアなどが挙げられます。 あまり知られていないものもあります。 以下のリストは、 watsonx.ai: でモデルのパフォーマンスを定量化する際に使用されるメトリックを示しています
- F1
- 精度と再現率の最適なバランスが達成されているかどうかを測定する。 分類タスクの評価によく用いられ、精度(Precision)は全文のうち正のクラスに分類された文の割合を示し、再現率(Recall)は分類されるべき文が実際に分類された割合を示す。
- 正規化割引累積利益(NDCG)
- 生成されたランキングを、最も関連性の高い項目がリストの上位に配置された基準順序と比較する、ランキングの品質メトリック。
- ROUGE-L
- 生成された要約と参照用要約との類似度を測定し、要約の品質を評価するために使用される。 ROUGEは、要約評価のためのリコール重視型アンダースタディ(Recall-Oriented Understudy for Gisting Evaluation)の略称です。 「L」は、単語の最も長い連続する一致列に基づいてスコアを算出することを意味します。 メトリック 文レベルの語順を反映した連続した一致を探します。
- SacreBLEU
- BLEU(Bilingual Evaluation Understudy)は、生成された翻訳と参照翻訳を比較するためのメトリックである。 SacreBLEU このバージョンは、サンプルのテストデータセットを提供し、トークン化を標準化された方法で管理することで、 メトリックトリクスの利用を容易にするものです。 主に翻訳タスクの品質評価に使用されますが、要約タスクの採点にも利用できます。
- 安全
- AttaQ 500ベンチマークで使用されるメトリックであり、攻撃に関連付けられたラベルを考慮する 「メトリック 調整済みランド指数(ARI)」と、凝集度、分離度、歪度、尤度といったクラスタ特性の評価を行う「シルエットスコア」を組み合わせたものである。 詳細については、研究論文 『大規模言語モデルのセキュリティ上の脆弱性の解明 』をご覧ください。
- 勝率
- メトリック -Hard-Autoベンチマークで使用される指標で、モデルの応答によってアクションが正常に完了した会話の割合を示すものです。 詳細については、研究論文 「クラウドソーシングデータから高品質なベンチマークへ:Arena-HardとBenchbuilderのパイプライン」 をご覧ください。