Evaluación LLM: Por qué es importante probar los modelos de IA

Dos personas miran pensativas el monitor de una computadora

Autores

Amanda McGrath

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Imagine que una empresa contrata a un nuevo empleado. Su currículum es excelente y completan todas sus tareas con rapidez y eficacia. Técnicamente, su trabajo se hace, pero ¿se hace bien? ¿Es de alta calidad, precisa y fiable?

Al igual que con cualquier nuevo empleado, los gerentes se toman el tiempo para revisar su trabajo y asegurarse de que cumpla con los estándares de la empresa y se desempeñe adecuadamente. A medida que la inteligencia artificial (AI) desempeña un papel más importante en los resultados comerciales y las decisiones, las empresas deben hacer lo mismo con sus programas de LLM.

Los modelos de lenguaje de gran tamaño (LLM) son modelos fundacionales que se entrenan con inmensas cantidades de datos y se utilizan para tareas relacionadas con la comprensión y la generación de texto. Por ejemplo, este tipo de sistema de AI es especialmente útil para trabajos como la creación de contenido, el resumen y el análisis de sentimientos .

Los LLM revolucionaron el campo del procesamiento del lenguaje natural (PLN) y dieron a conocer la IA generativa. Chat GPT-3 y GPT-4 de OpenAI, junto con Llama de Meta, son los ejemplos más conocidos, pero se utiliza una amplia gama de LLMs en varios dominios. Los LLMs potencian herramientas de IA como chatbots, asistentes virtuales, herramientas de traducción de idiomas y sistemas de generación de código.

A medida que las aplicaciones LLM se adoptan de manera más amplia, especialmente para su uso en industrias de alto riesgo, como la atención médica y las finanzas, probar su rendimiento es cada vez más importante. Ahí es donde entra en juego la evaluación de LLM.

¿Qué es la evaluación de LLM?

La evaluación LLM es el proceso de evaluar el rendimiento y las capacidades de grandes modelos de lenguaje. A veces denominado simplemente "evaluación de LLM", implica probar estos modelos en diversas tareas, conjuntos de datos y métricas para medir su eficacia.

Los métodos de evaluación pueden utilizar puntos de referencia automatizados y evaluaciones dirigidas por humanos para encontrar las fortalezas y debilidades de un LLM. El proceso implica comparar las salidas del modelo con datos de verdad del terreno (información que se supone que es verdadera) o respuestas generadas por humanos para determinar la precisión, coherencia y confiabilidad del modelo. Los resultados de LLM eval ayudan a los investigadores y desarrolladores a identificar áreas de mejora. Los procesos de evaluación también son un componente central de las operaciones de modelos de lenguaje grande, o LLMOPs, que implica la administración operativa de las LLM.

¿Por qué es importante la evaluación de LLM?

A medida que los LLM desempeñan un papel más importante en la vida cotidiana, evaluarlos ayuda a garantizar que funcionen según lo previsto. Más allá de las necesidades técnicas, LLM eval también ayuda a generar confianza entre los usuarios y los stakeholders.

La evaluación de LLM puede ayudar con:

  • Rendimiento del modelo
  • Consideraciones éticas
  • Benchmarking comparativo
  • Desarrollo de nuevos modelos
  • Confianza de los usuarios y stakeholder

Rendimiento del modelo

La evaluación de LLM muestra si el modelo está funcionando como se esperaba y generando resultados de alta calidad en todas sus tareas y dominios. Más allá de la funcionalidad básica, la evaluación puede revelar matices de la comprensión del lenguaje, la calidad de la generación y el dominio específico de la tarea. También puede identificar posibles debilidades, como brechas de conocimiento o inconsistencias en el razonamiento, lo que permite a los investigadores y desarrolladores enfocar mejor las mejoras.

Consideraciones éticas

A medida que se desarrollan, los LLM se ven influenciados por sesgos humanos , especialmente a través de los datos de entrenamiento. La evaluación es una forma de identificar y mitigar posibles prejuicios o imprecisiones en las respuestas del modelo. Un enfoque en la ética de AI ayuda a protegerse contra la Tecnología que perpetúa las desigualdades sociales y respalda los resultados fácticos.

Benchmarking comparativo

La evaluación de LLM permite a las personas comparar el rendimiento de diferentes modelos y elegir el mejor para su caso de uso específico. Ofrece un medio estandarizado para comparar los resultados de las métricas de rendimiento sin procesar con factores como la eficiencia computacional y la escalabilidad.

Desarrollo de nuevos modelos

Las insights que se extraigan de la evaluación del LLM pueden orientar el desarrollo de nuevos modelos. Ayuda a los investigadores a encontrar formas de crear nuevas técnicas de formación, diseños de modelos o capacidades específicas.

Confianza de los usuarios y stakeholder

La evaluación LLM respalda la transparencia en el desarrollo y genera confianza en los resultados. Como resultado, ayuda a las organizaciones a establecer expectativas realistas y fomentar la confianza en las herramientas de AI.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA 


Insights curados por expertos y noticias sobre IA, la nube y más en el boletín semanal Think. 

Evaluación del modelo LLM frente a evaluación del sistema LLM

Si bien están estrechamente relacionadas, la evaluación de LLM y la evaluación del sistema LLM tienen enfoques distintos.

La evaluación LLM (que también se puede llamar evaluación de modelos LLM) evalúa qué tan bien funciona un modelo. Examina el modelo de lenguaje central en sí, centrándose en su capacidad para comprender y generar texto en diversas tareas y dominios. La evaluación del modelo suele implicar probar las capacidades sin procesar del modelo. Estas capacidades incluyen su comprensión del lenguaje, la calidad de los resultados que genera y el rendimiento específico de la tarea.

La evaluación del sistema LLM es más completa y proporciona información sobre el rendimiento de extremo a extremo de la aplicación impulsada por LLM. La evaluación del sistema analiza todo el ecosistema que se construye alrededor de un LLM. Este esfuerzo incluye escalabilidad, seguridad e integración con otros componentes, como API o bases de datos.

En resumen, la evaluación de modelos se centra en cerciorar de que el LLM funcione para tareas específicas, mientras que la evaluación de sistemas es una mirada más holística a su uso y efectividad general. Ambos son esenciales para desarrollar aplicaciones de LLM estables y efectivas.

Métricas de evaluación de LLM

El primer paso en la evaluación de LLM es definir los criterios generales de evaluación en función del uso previsto del modelo. Existen numerosas métricas que se emplean para la evaluación, pero algunas de las más comunes incluyen:

  • Exactitud
  • Recordar
  • Puntuación F1
  • Coherencia
  • Perplejidad
  • BLEU
  • ROUGE
  • Latencia
  • Toxicidad

Exactitud

Calcula el porcentaje de respuestas correctas en tareas como la clasificación o la respuesta a preguntas.

Recordar

Mide el número real de verdaderos positivos o predicciones correctas frente a falsos en las respuestas de LLM.

Puntuación F1

Combina precisión y recuperación en una sola métrica. Las puntuaciones F1 oscilan entre 0 y 1, donde 1 significa excelente recuperación y precisión.

Coherencia

Evalúa el flujo lógico y la coherencia del texto generado.

Perplejidad

Mide lo bien que el modelo predice una secuencia de palabras o una muestra de texto. Cuanto más sistemáticamente prediga el modelo el resultado correcto, menor será su puntaje de perplejidad.

BLEU (suplente de evaluación bilingüe)

Evalúa la calidad del texto generado por máquina, particularmente en tareas de traducción.

ROUGE (Suplente orientado a la retirada para la evaluación de Gisting)

Evalúa la calidad de los resúmenes de texto comparándolos con los creados por humanos.

Latencia

Mide la eficiencia y la velocidad general del modelo.

Toxicidad

Mide la presencia de contenidos nocivos u ofensivos en los resultados del modelo.

Aplicación de infraestructuras de evaluación y puntos de referencia de LLM

Los evaluadores de LLM establecen criterios de evaluación claros y luego seleccionan una infraestructura que ofrece una metodología integral para evaluar el rendimiento de un modelo. Por ejemplo, la infraestructura de evaluación de modelos fundacionales de IBM (FM-eval) se utiliza para validar y evaluar nuevos LLM de forma sistemática, reproducible y coherente.

Dentro de los marcos de evaluación se encuentran los puntos de referencia de LLM , que son conjuntos de datos o tareas estandarizados que se utilizan para analizar los resultados y guiar el proceso de evaluación. Mientras que las infraestructuras definen cómo evaluar un LLM, los puntos de referencia definen qué evaluar, en otras palabras, las tareas y los datos específicos.

Los puntos de referencia de LLM consisten en conjuntos de datos de muestra, tareas y plantillas de instrucciones para probar los LLM en habilidades específicas, como la respuesta a preguntas, la traducción automática, el resumen y el análisis de sentimientos. También incluyen métricas para evaluar el rendimiento y un mecanismo de puntuación. Sus criterios de evaluación pueden basarse en la verdad fundamental o en las preferencias humanas.

Al evaluar los LLM en estos puntos de referencia, los desarrolladores pueden comparar el rendimiento de diferentes modelos y realizar un seguimiento del progreso a lo largo del tiempo. Algunos ejemplos de puntos de referencia LLM ampliamente utilizados incluyen:

  • Conjunto de datos MMLU (Massive Multitask Language Understanding), que consta de una colección de preguntas de opción múltiple que abarcan varios dominios.
  • HumanEval, que evalúa el rendimiento de un LLM en términos de generación de código, especialmente la corrección funcional.
  • TruthfulQA, que aborda los problemas de alucinación midiendo la capacidad de un LLM para generar respuestas veraces a las preguntas.
  • Evaluación General de Comprensión del Lenguaje (GLUE), y SuperGlue, que prueba el rendimiento de los modelos de procesamiento del lenguaje natural (PNL), especialmente aquellos diseñados para tareas de comprensión del lenguaje.
  • La biblioteca de conjuntos de datos Hugging Face, que proporciona acceso de código abierto a numerosos conjuntos de datos de evaluación.

Los puntos de referencia seleccionados se introducen en el LLM a través de pruebas zero-shot, few-shot y de ajuste para ver qué tan bien funciona el modelo. Con las pruebas few-shot, el LLM se evalúa en función de su capacidad para desempeñarse con datos limitados después de recibir una pequeña cantidad de ejemplos etiquetados que demuestran cómo realizar la tarea. Las pruebas de disparo cero le piden al LLM que complete una tarea sin ningún ejemplo, probando cómo se adapta a las nuevas circunstancias. Y el refinamiento entrena el modelo en un conjunto de datos similar al que utiliza el punto de referencia para mejorar el dominio del LLM de una tarea específica.

Los resultados de la evaluación LLM se pueden utilizar para refinar e iterar el modelo mediante el ajuste de parámetros, el ajuste fino o incluso el reentrenamiento en nuevos datos.

LLM como juez vs. humanos en el bucle

Al evaluar los resultados del modelo, los desarrolladores e investigadores utilizan dos enfoques: LLM como juez y evaluación humana en el ciclo.

En la evaluación del LLM como juez, el propio LLM se utiliza para evaluar la calidad de sus propios resultados. Por ejemplo, esto podría incluir comparar el texto generado por un modelo con un conjunto de datos de verdad en el terreno, o usar métricas como perplejidad o F1 para medir los resultados.

Para un enfoque humano en el ciclo, los evaluadores humanos miden la calidad de los resultados del LLM. Este tipo de evaluación puede ser útil para evaluaciones más matizadas, como la coherencia, la relevancia y la experiencia del usuario, que son difíciles de capturar solo a través de métricas automatizadas.

Casos de uso de evaluación del LLM

La evaluación de LLM tiene muchos casos de uso prácticos. Algunos ejemplos incluyen:

Evaluación de la precisión de un sistema de preguntas frecuentes

En la generación aumentada por recuperación (RAG) , la evaluación LLM puede ayudar a probar la calidad de las respuestas generadas por el modelo. Los investigadores pueden utilizar conjuntos de datos como SQuAD (Stanford Question Answering Dataset) o TruthfulQA para comprobar la precisión de un sistema de preguntas y respuestas impulsado por LLM comparando las respuestas del modelo con las respuestas de la verdad fundamental.

Evaluar la fluidez y coherencia del texto generado

Empleando métricas como BLEU y la evaluación humana, los investigadores pueden comprobar la calidad de las respuestas de texto que ofrecen los chatbots o los sistemas de traducción automática. Esto ayuda a garantizar que el texto generado sea fluido, coherente y adecuado al contexto.

Detección de sesgo y toxicidad

Mediante el uso de conjuntos de datos y métricas especializados, los investigadores pueden evaluar la presencia de sesgos y contenido tóxico en el texto generado por LLM. Por ejemplo, el conjunto de datos de ToxiGen se puede emplear para evaluar la toxicidad de los resultados del modelo, lo que podría conducir a aplicaciones más seguras e inclusivas.

Comparación del rendimiento de diferentes LLM

Los investigadores pueden emplear conjuntos de datos de punto de referencia como GLUE o SuperGLUE para comparar el rendimiento de distintos LLM en diversas tareas de PLN, como el análisis de sentimientos o named entity recognition.

En estos y otros casos de uso, la evaluación de LLM puede generar beneficios importantes para las empresas. Mediante la identificación de áreas de mejora y oportunidades para abordar los puntos débiles, la evaluación del LLM puede conducir a una mejor experiencia del usuario, menos riesgos y un beneficio competitivo potencial.

Desafíos de la evaluación de LLM

Por todos sus beneficios, la evaluación de LLM también enfrenta algunos desafíos y limitaciones. El rápido ritmo de desarrollo de LLM dificulta el establecimiento de puntos de referencia estandarizados y duraderos. Evaluar la comprensión contextual es un desafío, al igual que detectar los matices más finos del sesgo.

La explicabilidad también es un problema: los LLM a menudo se consideran "cajas negras", lo que dificulta la interpretación de su proceso de toma de decisiones con fines de evaluación y la identificación de los factores que contribuyen a sus resultados.

Además, muchos conjuntos de datos de evaluación no son representativos de varios idiomas o culturas. Como resultado, los modelos que se prueban con estos conjuntos de datos podrían funcionar bien en puntos de referencia específicos, pero no obstante fallar en escenarios del mundo real.

A medida que los LLM y otras aplicaciones complejas de machine learning continúan desarrollándose y aplicándose de nuevas maneras, superar esos desafíos para garantizar una evaluación sólida desempeñará un papel importante para ayudar a los evaluadores y desarrolladores a mejorar la eficacia, la seguridad y el uso ético de los LLM.

Recursos

¿Qué es la gobernanza de la IA?
Tema relacionado
¿Qué es el manejo de riesgos de IA?
Blog
¿Qué es la ética de la IA?
Tema relacionado
¿Qué es LLMOps?
Tema relacionado

Dé el siguiente paso

Acelere los flujos de trabajo de IA responsables, transparentes y explicables a lo largo del ciclo de vida tanto para los modelos de IA generativa como para los de machine learning. Dirija, gestione y supervise las actividades de AI de su organización para gestionar mejor las crecientes regulaciones de AI y detectar y mitigar el riesgo.

Explore watsonx.governance Reserve una demostración en vivo