¿Qué son los puntos de referencia LLM?

Joven empleado trabaja en una oficina moderna de planta abierta

Autores

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué son los puntos de referencia LLM?

Los puntos de referencia de LLM son infraestructuras estandarizadas para evaluar el rendimiento de modelos de lenguaje grandes(LLM). Estos puntos de referencia constan de datos de muestra, un conjunto de preguntas o tareas para poner a prueba las competencias específicas de los LLM, parámetros para evaluar el rendimiento y un mecanismo de puntaje.

Los modelos se evalúan en función de sus capacidades, como la programación, el sentido común y el razonamiento. Otras capacidades abarcan procesamiento de lenguaje natural, incluida la traducción automática, la respuesta a preguntas y el resumen de textos.

Los puntos de referencia de LLM desempeñan un papel crucial en el desarrollo y la mejora de los modelos. Los puntos de referencia muestran el progreso de un LLM a medida que aprende, con medidas cuantitativas que destacan dónde sobresale el modelo y sus áreas de mejora.

Esto, a su vez, guía el proceso de ajuste, lo que ayuda a los investigadores y desarrolladores de LLM a avanzar en el campo. Los puntos de referencia de LLM también proporcionan una comparación objetiva de diferentes modelos, lo que ayuda a informar a los desarrolladores de software y a las organizaciones a medida que eligen qué modelos se adaptan mejor a sus necesidades.

Cómo funcionan los puntos de referencia de LLM

Los puntos de referencia de LLM funcionan de manera sencilla. Proporcionan una tarea que un LLM debe realizar, evalúan el rendimiento del modelo de acuerdo con una métrica determinada y producen un puntaje basado en esa métrica. Así es como funciona cada paso en detalle:

Configuración

Los puntos de referencia de LLM ya tienen datos de muestra preparados: desafíos de programación, documentos grandes, problemas matemáticos, conversaciones del mundo real, preguntas científicas. También hay una variedad de tareas listas, que incluyen razonamiento de sentido común, resolución de problemas, respuesta a preguntas, generación de resúmenes y traducción. Todos estos se dan al modelo al comienzo de las pruebas.

Pruebas

Al ejecutar el punto de referencia, se introduce en un modelo en uno de tres enfoques:

  • Few-shot: antes de dar una instrucción a un LLM para que realice una tarea, se le proporciona una pequeña cantidad de ejemplos que muestran cómo realizar dicha tarea. Esto demuestra la capacidad de un modelo para aprender con datos escasos.

  • Zero-shot: un LLM recibe la instrucción de completar una tarea sin haber visto ningún ejemplo antes. Esto revela la capacidad de un modelo para comprender nuevos conceptos y adaptarse a escenarios novedosos.

  • Ajustado: un modelo se entrena en un conjunto de datos similar al que emplea el punto de referencia. El objetivo es potenciar el dominio del LLM de la tarea asociada al punto de referencia y optimizar su rendimiento en esa tarea específica.

Puntuación

Una vez que se realizan las pruebas, un punto de referencia de LLM calcula qué tan cerca se asemejan los resultados de un modelo a la solución esperada o la respuesta estándar, y luego genera una puntuación entre 0 y 100.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Métricas clave para la evaluación comparativa de LLM

Los puntos de referencia aplican diferentes métricas para evaluar el desempeño de los LLM. Estos son algunos de los más comunes:

  • La exactitud o precisión calcula el porcentaje de predicciones correctas.
     

  • La recuperación, también llamada tasa de sensibilidad, cuantifica el número de verdaderos positivos: las predicciones correctas reales.
     

  • El puntaje F1 combina la precisión y la recuperación en una sola métrica. Considera que las dos medidas tienen el mismo peso para equilibrar los falsos positivos o falsos negativos. Los puntajes F1 oscilan entre 0 y 1, donde 1 significa una excelente recuperación y precisión.
     

  • La coincidencia exacta es la proporción de predicciones que un LLM coincide exactamente y es un criterio valioso para la traducción y la respuesta a preguntas.
     

  • La perplejidad mide qué tan bueno es un modelo para predecir. Cuanto menor sea el puntaje de perplejidad de un LLM, mejor será su capacidad para comprender una tarea.
     

  • Bilingual evaluation understudy (BLEU) evalúa la traducción automática calculando los n-gramas coincidentes (una secuencia de n símbolos de texto adyacentes) entre la traducción prevista de un LLM y una traducción producida por humanos.
     

  • Recall-oriented understudy for gisting evaluation (ROUGE) evalúa el resumen de textos y tiene varios tipos. ROUGE-N, por ejemplo, realiza cálculos similares a BLEU para los resúmenes, mientras que ROUGE-L calcula la subsecuencia común más larga entre el resumen predicho y el resumen producido por humanos.

Una o más de estas métricas cuantitativas generalmente se combinan para una evaluación más completa y sólida.

En tanto, la evaluación humana implica métricas cualitativas, como la coherencia, la relevancia y el significado semántico. Los evaluadores humanos que examinan y puntúan un LLM pueden hacer que la evaluación sea más matizada, pero puede ser intensiva en mano de obra, subjetiva y consumir mucho tiempo. Por lo tanto, se necesita un equilibrio de métricas tanto cuantitativas como cualitativas.

AI Academy

Por qué los modelos fundacionales son un cambio de paradigma para la IA

Conozca una nueva clase de modelos de IA flexibles y reutilizables que pueden desbloquear nuevos ingresos, reducir costos y aumentar la productividad, luego use nuestra guía para investigar a profundidad.

Limitaciones de los puntos de referencia de LLM

Aunque los puntos de referencia son indicadores estables del rendimiento de los LLM, no pueden predecir lo bien que funcionará un modelo en el mundo real. Estas son algunas limitaciones de los puntos de referencia de LLM:

Puntuación limitada

Una vez que un modelo alcanza la puntuación más alta posible para un determinado punto de referencia, ese punto de referencia deberá actualizarse con tareas más difíciles para que sea una medida útil.

Amplio conjunto de datos

Dado que los puntos de referencia de LLM emplean datos de muestra derivados principalmente de una amplia gama de temas y una amplia gama de tareas, es posible que no sean una métrica adecuada para escenarios extremos, áreas especializadas o casos de uso específicos.

Evaluaciones finitas

Los puntos de referencia de LLM solo pueden probar las habilidades actuales de un modelo. Pero a medida que los LLM avanzan y surgen nuevas capacidades, habrá que crear nuevos puntos de referencia.

Sobreajuste

Si un LLM se entrena en el mismo conjunto de datos que el punto de referencia, podría producir un sobreajuste, en el que el modelo podría funcionar bien en los datos de prueba, pero no en los datos del mundo real. Esto da como resultado un puntaje que no refleja las capacidades reales del LLM.

¿Qué son las tablas de clasificación de LLM?

Las tablas de clasificación de LLM publican una clasificación de LLM basada en una variedad de puntos de referencia. Las tablas de clasificación proporcionan una forma de realizar un seguimiento de los innumerables LLM y comparar su rendimiento. Las tablas de clasificación de LLM son especialmente beneficiosas para tomar decisiones sobre qué modelos usar.

Cada punto de referencia generalmente tiene su propia tabla de clasificación, pero también existen tablas de clasificación de LLM independientes. Por ejemplo, Hugging Face tiene una colección de tablas de clasificación, una de las cuales es una tabla de clasificación de LLM abierta que clasifica múltiples modelos de código abierto basados en los puntos de referencia ARC, HellaSwag, MMLU, GSM8K, TruthfulQA y Winogrande.

Puntos de referencia comunes de LLM

Los investigadores clasifican los puntos de referencia del LLM según estos dos aspectos:1

  • Criterios de evaluación: las métricas de evaluación de LLM pueden ser reales o preferencias humanas. La verdad fundamental se refiere a la información que se supone que es verdadera, mientras que las preferencias humanas son elecciones que reflejan el uso en el mundo real.
     

  • Fuente de las preguntas: las instrucciones pueden provenir de fuentes estáticas o en vivo. Las instruccionesestáticas contienen preguntas predefinidas, mientras que las instrucciones en vivo son preguntas realizadas en un entorno interactivo.

Los puntos de referencia pueden entrar en una o más de estas categorías. Así es como funcionan algunos puntos de referencia populares:

AI2 Reasoning Challenge (ARC)

ARC mide las habilidades de razonamiento y respuesta a preguntas de un LLM a través de una serie de más de 7000 preguntas de ciencias naturales de nivel primario. Estas preguntas se dividen en un conjunto fácil y un conjunto de desafíos. El puntaje es simple, con un modelo que obtiene un punto por cada respuesta correcta y 1/N puntos si proporciona varias respuestas y una de ellas es correcta.2

Chatbot Arena

Chatbot Arena es una plataforma de punto de referencia abierta que enfrenta a dos chatbots anónimos entre sí. Los usuarios tienen conversaciones aleatorias del mundo real con ambos chatbots en una "arena", votan sobre cuál prefieren, luego de lo cual se revelan las identidades de los modelos. Estos datos de comparación por pares se introducen en métodos estadísticos que estiman los puntajes y crean clasificaciones aproximadas para varios LLM. Los algoritmos de muestreo también se emplean para emparejar modelos.1

Grade School Math 8K (GSM8K)

GSM8K pone a prueba las habilidades de razonamiento matemático de un LLM. Tiene un corpus de 8500 problemas matemáticos de la escuela primaria. Las soluciones se recopilan en forma de lenguaje natural en lugar de expresiones matemáticas. Los verificadores de IA están entrenados para evaluar soluciones de modelos.3

HellaSwag

HellaSwag es un acrónimo de “Harder Endings, Longer contexts and Low-shot Activities for Situations With Adversarial Generations”. Este punto de referencia se centra en torno al razonamiento de sentido común y la inferencia del lenguaje natural. Los modelos tienen la tarea de completar oraciones eligiendo entre una serie de posibles finales. Estos finales incluyen respuestas erróneas creadas a través del filtrado adversarial, un algoritmo que genera respuestas realistas pero engañosamente incorrectas. HellaSwag evalúa la precisión para las categories de few-shot y zero-shot.4

HumanEval

HumanEval evalúa el desempeño de un LLM en términos de generación de código, específicamente la corrección funcional. A los modelos se les asignan problemas de programación para resolver y se evalúan en función de la aprobación de las pruebas unitarias correspondientes. Esto es similar a los desarrolladores de software humanos que prueban si su código es correcto al aprobar pruebas unitarias específicas. El punto de referencia HumanEval emplea su propia métrica de evaluación llamada pass@k, que es la probabilidad de que al menos una de las soluciones de código generadas con k para un problema de programación pase las pruebas unitarias de ese problema.5

Comprensión masiva del lenguaje multitarea (MMLU)

MMLU es un punto de referencia que evalúa la amplitud del conocimiento de un LLM, la profundidad de su natural language understanding y su capacidad para resolver problemas basados en el conocimiento adquirido. El conjunto de datos de MMLU abarca más de 15 000 preguntas de conocimientos generales de opción múltiple en 57 materias. La evaluación se produce únicamente en entornos de few-shot y zero-shot. El punto de referencia de la MMLU califica la precisión de un modelo en cada tema y luego promedia esos números para obtener un puntaje final.6

Problemas de programación mayormente básicos (MBPP)

MBPP, también conocido como Mostly Basic Python Problems, es otro punto de referencia de generación de código. Tiene un corpus de más de 900 tareas de programación. Similar a HumanEval, evalúa la corrección funcional en función de pasar un conjunto de casos de prueba. La evaluación se realiza en entornos de few-shot y ajustados. MBPP utiliza dos métricas: el porcentaje de problemas que resuelve cualquier muestra del modelo y el porcentaje de muestras que resuelven sus respectivas tareas.7

MT-Bench

Los investigadores de Chatbot Arena también crearon MT-Bench, diseñado para comprobar hasta qué punto un LLM puede entablar un diálogo y seguir instrucciones. Su conjunto de datos consta de preguntas abiertas de varios turnos, con 10 preguntas cada una en estas ocho áreas: programación, extracción, conocimientos I (STEM), conocimientos II (humanidades y ciencias sociales), matemáticas, razonamiento, juego de rol y escritura. MT-Bench emplea el LLM GPT-4 para evaluar las respuestas de otros LLM8

SWE-bench

Al igual que HumanEval, SWE-bench prueba las habilidades de generación de código de un LLM, con un enfoque en la resolución de problemas. Los modelos tienen la tarea de corregir un error o abordar una solicitud de función en una base de código específica. La métrica de evaluación del punto de referencia es el porcentaje de instancias de tareas resueltas.9

TruthfulQA

Los modelos de lenguaje grandes tienen una tendencia a alucinar, lo que produce resultados inexactos. El punto de referencia TruthfulQA tiene como objetivo abordar esto midiendo la capacidad de un LLM para generar respuestas veraces a las preguntas. Su conjunto de datos contiene más de 800 preguntas que abarcan 38 temas. TruthfulQA combina la evaluación humana con el LLM GPT-3 ajustado a las métricas BLEU y ROUGE para predecir las evaluaciones humanas de capacidad de información y veracidad.10

Winogrande

Winogrande evalúa las capacidades de razonamiento de sentido común de un LLM. Se basa en el punto de referencia original de Winograd Schema Challenge (WSC), con un enorme conjunto de datos de 44 000 problemas de crowdsourcing que también utiliza filtrado adversarial. La puntuación se basa en la precisión.11

Soluciones relacionadas
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas mediante la incorporación de IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM watsonx en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Explore watsonx.ai Explore las soluciones de IA