¿Qué son los puntos de referencia de LLM?

Autores

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué son los puntos de referencia LLM?

Los puntos de referencia LLM son marcos estandarizados para evaluar el rendimiento de los modelos de lenguaje de gran tamaño (LLM). Estos puntos de referencia constan de datos de muestra, un conjunto de preguntas o tareas para poner a prueba a los LLM en competencias específicas, métricas para evaluar el rendimiento y un mecanismo de puntuación.

Los modelos se comparan en función de sus capacidades, como la codificación, el sentido común y el razonamiento. Otras capacidades abarcan el procesamiento del lenguaje natural, incluida la traducción automática, la respuesta a preguntas y el resumen de textos.

Los puntos de referencia de LLM desempeñan un papel crucial en el desarrollo y mejora de los modelos. Los puntos de referencia muestran el progreso de un LLM a medida que aprende, con medidas cuantitativas que resaltan dónde el modelo sobresale y sus áreas de mejora.

Esto, a su vez, guía el proceso de fine-tuning, que ayuda a los investigadores y desarrolladores de LLM a avanzar en el campo. Los puntos de referencia LLM también proporcionan una comparación objetiva de diferentes modelos, lo que ayuda a informar a los desarrolladores de software y a las organizaciones a la hora de elegir qué modelos se adaptan mejor a sus necesidades.

Cómo funcionan los puntos de referencia del LLM

Los puntos de referencia de LLM funcionan de manera sencilla. Proporcionan una tarea que debe realizar un LLM, evalúan el rendimiento del modelo de acuerdo con una determinada métrica y producen una puntuación basada en esa métrica. Así es como funciona cada paso en detalle:

Preparación

Los puntos de referencia de LLM ya tienen datos de muestra preparados: desafíos de codificación, documentos grandes, problemas matemáticos, conversaciones del mundo real, preguntas científicas. También hay una serie de tareas preparadas, como el razonamiento de sentido común, la resolución de problemas, la respuesta a preguntas, la generación de resúmenes y la traducción. Todos ellos se facilitan al modelo al inicio de las pruebas.

Pruebas

Al ejecutar el índice de referencia, se introduce en un modelo con uno de los tres enfoques siguientes:

  • Few-shot: antes de pedir a un LLM que realice una tarea, se le proporciona un pequeño número de ejemplos que muestran cómo realizar esa tarea. Esto demuestra la capacidad de un modelo para aprender con datos escasos.
     

  • Zero-shot: se solicita a un LLM que complete una tarea sin haber visto ningún ejemplo de antemano. Esto revela la capacidad de un modelo para comprender nuevos conceptos y adaptarse a escenarios novedosos.
     

  • Ajustado: un modelo se entrena en un conjunto de datos similar al que utiliza la referencia. El objetivo es aumentar el dominio del LLM de la tarea asociada con la referencia y optimizar su rendimiento en esa tarea específica.

Puntuación

Una vez realizadas las pruebas, una referencia LLM calcula en qué medida la salida de un modelo se parece a la solución esperada o a la respuesta estándar y, a continuación, genera una puntuación entre 0 y 100.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Métricas clave para la evaluación comparativa de los LLM

Los puntos de referencia aplican diferentes métricas para evaluar el desempeño de los LLM. Estos son algunos de los más comunes:

  • La exactitud o precisión calcula el porcentaje de predicciones correctas.
     

  • La recuperación, también llamada tasa de sensibilidad, cuantifica el número de verdaderos positivos, es decir, las predicciones correctas reales.
     

  • La puntuación F1 combina precisión y recuperación en una sola métrica. Tiene en cuenta que las dos medidas tienen el mismo peso para equilibrar los falsos positivos y los falsos negativos. Las puntuaciones de F1 van de 0 a 1, donde 1 significa excelente memoria y precisión.
     

  • La coincidencia exacta es la proporción de predicciones con las que coincide exactamente un LLM y es un criterio útil para la traducción y la respuesta a preguntas.
     

  • La perplejidad mide lo bueno que es un modelo en la predicción. Cuanto menor sea la puntuación de perplejidad de un LLM, mejor comprenderá una tarea.
     

  • El suplente de evaluación bilingüe (BLEU) evalúa la traducción automática al calcular la coincidencia de n-gramas (una secuencia de n símbolos de texto adyacentes) entre la traducción prevista de un LLM y una traducción producida por un ser humano.
     

  • El estudio orientado al recuerdo para la evaluación de resumen (ROUGE) evalúa el resumen de texto y tiene varios tipos. ROUGE-N, por ejemplo, realiza cálculos similares a BLEU para resúmenes, mientras que ROUGE-L calcula la subsecuencia común más larga entre el resumen previsto y el resumen producido por humanos.

Una o más de estas métricas cuantitativas suelen combinarse para obtener una evaluación más completa y sólida.

Por su parte, la evaluación humana implica métricas cualitativas como la coherencia, la relevancia y el significado semántico. Los evaluadores humanos que examinan y califican un LLM pueden hacer que la evaluación sea más matizada, pero puede ser laboriosa, subjetiva y llevar mucho tiempo. Por lo tanto, se necesita un equilibrio de métricas cuantitativas y cualitativas.

AI Academy

Por qué los modelos fundacionales son un cambio de paradigma para la IA

Conozca una nueva clase de modelos de IA flexibles y reutilizables capaces de desbloquear nuevos ingresos, reducir costes y aumentar la productividad, y utilice nuestra guía para profundizar más en el tema.

Limitaciones de los puntos de referencia de LLM

Aunque los puntos de referencia son indicadores sólidos del rendimiento del LLM, no pueden predecir lo bien que funcionará un modelo en el mundo real. Estas son algunas limitaciones de los puntos de referencia LLM:

Puntuación limitada

Una vez que un modelo alcanza la puntuación más alta posible para un determinado punto de referencia, será necesario actualizar ese punto de referencia con tareas más difíciles para que sea una medida útil.

Conjunto de datos amplio

Dado que los puntos de referencia LLM utilizan datos de muestra derivados en su mayoría de una amplia gama de temas y un amplio abanico de tareas, puede que no sean una métrica adecuada para escenarios edge, áreas especializadas o casos de uso específicos.

Evaluaciones finitas

Los puntos de referencia LLM solo pueden evaluar las habilidades actuales de un modelo. Pero a medida que los LLM avancen y surjan nuevas capacidades, será necesario crear nuevos puntos de referencia.

Sobreajuste

Si un LLM se entrena en el mismo conjunto de datos que el punto de referencia, podría generar un sobreajuste, en el que el modelo podría funcionar bien en los datos de prueba, pero no en los datos del mundo real. Esto da como resultado una puntuación que no refleja las capacidades reales del LLM.

¿Qué son las tablas de clasificación LLM?

Las tablas de clasificación de LLM publican una clasificación de LLM basada en una variedad de puntos de referencia. Las tablas de clasificación proporcionan una forma de realizar un seguimiento de la miríada de LLM y comparar su rendimiento. Las tablas de clasificación de LLM son especialmente beneficiosas para tomar decisiones sobre qué modelos utilizar.

Cada punto de referencia suele tener su propia tabla de clasificación, pero también existen tablas de clasificación de LLM independientes. Por ejemplo, Hugging Face tiene una colección de tablas de clasificación, una de ellas es una tabla de clasificación LLM abierta que clasifica múltiples modelos de código abierto basados en los puntos de referencia ARC, HellaSwag, MMLU, GSM8K, TruthfulQA y Winogrande.

Puntos de referencia comunes de LLM

Los investigadores clasifican los puntos de referencia LLM según estos dos aspectos:1

  • Criterios de evaluación: las métricas de evaluación de LLM pueden ser la verdad fundamental o las preferencias humanas. La verdad fundamental se refiere a la información que se supone verdadera, mientras que las preferencias humanas son elecciones que reflejan el uso en el mundo real.
     

  • Fuente de las preguntas: las instrucciones pueden provenir de fuentes estáticas o en vivo. Las instrucciones estáticas contienen preguntas predefinidas, mientras que las instrucciones en directo son preguntas que se hacen en un entorno interactivo.

Las referencias pueden pertenecer a una o más de estas categorías. Así es como funcionan algunos puntos de referencia populares:

Desafío de razonamiento AI2 (ARC)

ARC mide las habilidades de razonamiento y respuesta a preguntas de un LLM a través de una serie de más de 7000 preguntas de ciencias naturales de escuela primaria. Estas preguntas se dividen en un conjunto fácil y un conjunto desafiante. La puntuación es sencilla, el modelo obtiene un punto por cada respuesta correcta y 1/N puntos si proporciona varias respuestas y una de ellas es correcta.2

Chatbot Arena

Chatbot Arena es una plataforma de referencia abierta que enfrenta a dos chatbots anónimos entre sí. Los usuarios mantienen conversaciones aleatorias en el mundo real con ambos chatbots en una "arena" y luego votan por el que prefieren, tras lo cual se revela la identidad de los modelos. Estos datos de comparación por pares obtenidos mediante crowdsourcing se introducen en métodos estadísticos que estiman las puntuaciones y crean clasificaciones aproximadas para varios LLM. Los algoritmos de muestreo también se utilizan para emparejar modelos.1

Grade School Math 8K (GSM8K)

GSM8K pone a prueba las habilidades de razonamiento matemático de un LLM. Tiene un corpus de 8500 problemas matemáticos de primaria. Las soluciones se recopilan en forma de lenguaje natural en lugar de expresiones matemáticas. Los verificadores de IA están entrenados para evaluar soluciones modelo.3

HellaSwag

HellaSwag es un acrónimo de "Harder Endings, Longer contexts and Low-shot Activities for Situations With Adversarial Generations" (Finales más difíciles, contextos más largos y actividades de baja intensidad para situaciones con generaciones enfrentadas). Este punto de referencia se centra en el razonamiento de sentido común y la inferencia del lenguaje natural. Los modelos tienen la tarea de completar oraciones eligiendo entre una serie de finales posibles. Estos finales incluyen respuestas incorrectas creadas a través del filtrado adversarial, un algoritmo que genera respuestas realistas pero engañosamente incorrectas. HellaSwag evalúa la precisión tanto para las categorías de pocos disparos como para las de cero disparos.4

HumanEval

HumanEval evalúa el rendimiento de un LLM en términos de generación de código, específicamente corrección funcional. Los modelos reciben problemas de programación para resolver y se evalúan en función de la aprobación de las pruebas unitarias correspondientes. Es similar a los desarrolladores humanos de software que comprueban si su código es correcto basándose en la superación de determinadas pruebas unitarias. El punto de referencia HumanEval utiliza sus propias métricas de evaluación llamadas pass@k, que son la probabilidad de que al menos una de las k soluciones de código generadas para un problema de codificación supere las pruebas unitarias de ese problema.5

Massive Multitask Language Understanding (MMLU)

MMLU es un benchmark que evalúa la amplitud de los conocimientos de un LLM, la profundidad de su comprensión del lenguaje natural y su capacidad para resolver problemas basados en los conocimientos adquiridos. El conjunto de datos de MMLU abarca más de 15 000 preguntas de cultura general de opción múltiple en 57 temas. La evaluación se produce únicamente en entornos few-shot y zero-shot. El punto de referencia MMLU puntúa la precisión de un modelo en cada tema y luego promedia esos números para obtener una puntuación final.6

Mostly Basic Programming Problems (MBPP)

MBPP, también conocido como Mostly Basic Python Problems, es otro punto de referencia para la generación de código. Tiene un corpus de más de 900 tareas de codificación. Similar a HumanEval, evalúa la corrección funcional basándose en la aprobación de un conjunto de casos de prueba. La evaluación se lleva a cabo en entornos de pocos disparos y ajustados con precisión. MBPP utiliza dos métricas: el porcentaje de problemas que se resuelven con cualquier muestra del modelo y el porcentaje de muestras que resuelven sus respectivas tareas.7

MT-Bench

Los investigadores de Chatbot Arena también crearon MT-Bench, diseñado para comprobar hasta qué punto un LLM puede entablar un diálogo y seguir instrucciones. Su conjunto de datos consiste en preguntas abiertas de varios turnos, con 10 preguntas cada una en estas ocho áreas: codificación, extracción, conocimientos I (STEM), conocimientos II (humanidades y ciencias sociales), matemáticas, razonamiento, juego de rol y escritura. MT-Bench utiliza el LLM GPT-4 para evaluar las respuestas de otros LLM.8

SWE-bench

Al igual que HumanEval, SWE-Bench pone a prueba las habilidades de generación de código de un LLM, centrándose en la resolución de problemas. Las modelos tienen la tarea de corregir un error o dirección una solicitud de función en una base de códigos específica. La métrica de evaluación del índice de referencia es el porcentaje de instancias de tareas resueltas.9

TruthfulQA

Los modelos de lenguaje de gran tamaño tienden a alucinar, lo que da como resultado resultados inexactos. El punto de referencia TruthfulQA tiene como objetivo abordar esto midiendo la capacidad de un LLM para generar respuestas veraces a las preguntas. Su conjunto de datos contiene más de 800 preguntas que abarcan 38 temas. TruthfulQA combina la evaluación humana con el LLM GPT-3 ajustado en las métricas BLEU y ROUGE para predecir las evaluaciones humanas de informatividad y veracidad10.

Winogrande

Winogrande evalúa las capacidades de razonamiento de sentido común de un LLM. Se basa en el punto de referencia original de Winograd Schema Challenge (WSC), con un enorme conjunto de datos de 44 000 problemas de colaboración colectiva que también utiliza filtrado adversario. La puntuación se basa en la precisión.11

Soluciones relacionadas
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM en la cartera de IBM watsonx para escalar la IA generativa para su negocio con confianza.

Explore watsonx.ai Explore las soluciones de IA