BLEU評価指標

BLEU（Bilingual Evaluation Understudy）メトリックは、機械翻訳の翻訳文と参照翻訳の原文を比較し、参照テキストと予測の類似性を測定する。

メトリックの詳細

BLEUは、生成型AI 資産タスクをどれだけうまく実行できるかを測定する生成型AIの品質評価指標です。

範囲

BLEUメトリックは生成型AI 資産のみを評価します。

AI 資産の種類: テンプレートを即座に表示
生成型AIのタスク ：
- テキストの要約
- コンテンツの生成
- 質問への回答
- 検索強化型生成（RAG）
対応言語 ：英語

スコアと価値

BLEU 評価尺度スコアは、機械翻訳と参照翻訳の類似性を示す。スコアが高いほど、参照テキストと予測の類似性が高いことを示します。

値の範囲 ： 0.0-1.0
最高得点 ： 1.0

設定

しきいち：
- 下限： 0.8
- 上限：1
パラメーター:
- 最大注文：BLEUスコアを算出する際に使用する最大n-gram注文
- スムーズ：データのノイズを除去する平滑化処理を適用するかどうか