Métricas de evaluación de BLEU

La métrica BLEU (Evaluación bilingüe de suplentes) compara las frases traducidas de las traducciones automáticas con las frases de las traducciones de referencia para medir la similitud entre los textos de referencia y las predicciones.

Detalles de métrica

BLEU es una métrica de evaluación de calidad de IA generativa que mide el rendimiento de las tareas de los activos de IA generativa.

Ámbito

La métrica BLEU evalúa solo los activos de IA generativa.

Tipos de activos de IA : plantillas de mensajes
Tareas de IA generativa :
- Resumen de texto
- Generación de contenido
- Respuesta a preguntas
- Generación aumentada de recuperación (RAG)
Idiomas disponibles : inglés

Puntuaciones y valores

La puntuación métrica BLEU indica la similitud entre la traducción automática y las traducciones de referencia. Las puntuaciones más altas indican una mayor similitud entre los textos de referencia y las predicciones.

Rango de valores : 0.0-1.0
Mejor puntuación posible : 1.0

Valores

Umbrales:
- Límite inferior: 0.8
- Límite superior: 1
Parámetros:
- Pedido máximo: Pedido máximo de n-gramas a utilizar al completar la puntuación BLEU
- Suavizar: si se debe aplicar o no una función de suavizado para eliminar el ruido de los datos