Evaluación LLM: por qué es importante probar los modelos de IA

Dos personas miran pensativas el monitor de un ordenador

Autores

Amanda McGrath

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Imaginemos que una empresa contrata a un nuevo empleado. Su currículum es excelente y realiza todas sus tareas con rapidez y eficacia. Técnicamente, su trabajo se hace, pero ¿se hace bien? ¿Es de alta calidad, preciso y fiable?

Como con cualquier nueva contratación, los directivos se toman tiempo para revisar su trabajo y asegurarse de que cumple las normas de la empresa y rinde adecuadamente. Dado que la inteligencia artificial (IA) desempeña un papel más importante en la producción empresarial y la toma de decisiones, las empresas deben hacer lo mismo con los LLM.

Los modelos de lenguaje de gran tamaño (LLM) son modelos fundacionales que se entrenan con inmensas cantidades de datos y se utilizan para tareas relacionadas con la comprensión y la generación de texto. Por ejemplo, este tipo de sistema de IA es especialmente útil para trabajos como la creación de contenidos, el resumen y el análisis de sentimientos.

Los LLM revolucionaron el campo del procesamiento del lenguaje natural (PLN) y llevaron la IA generativa a la opinión pública de nuevas maneras. Chat GPT-3 y GPT-4 de OpenAI, junto con Llama de Meta, son los ejemplos más conocidos, pero se utiliza una amplia gama de LLM en diversos dominios. Los LLM impulsan herramientas de IA como chatbots, asistentes virtuales, herramientas de traducción de idiomas y sistemas de generación de código.

A medida que las aplicaciones de LLM se adoptan de forma más generalizada, especialmente para su uso en sectores de alto riesgo como la sanidad y las finanzas, es cada vez más importante probar su rendimiento. Ahí es donde entra en juego la evaluación de LLM.

¿Qué es la evaluación de LLM?

La evaluación de LLM es el proceso de valorar el rendimiento y las capacidades de los modelos de lenguaje de gran tamaño. A veces se denomina simplemente "evaluación de LLM" y consiste en probar estos modelos en varias tareas, conjuntos de datos y métricas para medir su eficacia.

Los métodos de evaluación pueden utilizar puntos de referencia automatizados y evaluaciones humanas para determinar los puntos fuertes y débiles de un LLM. El proceso consiste en comparar los outputs del modelo con datos reales (información que se supone verdadera) o respuestas generadas por humanos para determinar la precisión, coherencia y fiabilidad del modelo. Los resultados de la evaluación del LLM ayudan a los investigadores y desarrolladores a identificar áreas de mejora. Los procesos de evaluación son también un componente central de las operaciones de modelos de lenguaje de gran tamaño, o LLMOps, que implican la gestión operativa de los LLM.

¿Por qué es importante la evaluación de LLM?

A medida que los LLM desempeñan un papel más importante en la vida cotidiana, su evaluación ayuda a garantizar que funcionan según lo previsto. Más allá de las necesidades técnicas, la evaluación de los LLM también ayuda a generar confianza entre usuarios y partes interesadas.

La evaluación de LLM puede ayudar con:

  • El rendimiento del modelo
  • Las consideraciones éticas
  • La evaluación comparativa
  • El desarrollo de nuevos modelos
  • La confianza de usuarios y partes interesadas

El rendimiento del modelo

La evaluación del LLM muestra si el modelo funciona como se esperaba y genera outputs de alta calidad en todas sus tareas y dominios. Más allá de la funcionalidad básica, la evaluación puede revelar matices de comprensión lingüística, calidad de generación y competencia en tareas específicas. También puede señalar posibles puntos débiles, como lagunas de conocimiento o incoherencias en el razonamiento, lo que permite a los investigadores y desarrolladores orientar mejor las mejoras.

Las consideraciones éticas

A medida que se desarrollan, los LLM se ven influenciados por sesgos humanos, especialmente a través de datos de entrenamiento. La evaluación es una forma de identificar y mitigar posibles prejuicios o imprecisiones en las respuestas del modelo. Centrarse en la ética de la IA ayuda a evitar que la tecnología perpetúe las desigualdades sociales y respalda los resultados objetivos.

La evaluación comparativa

La evaluación de LLM permite a las personas comparar el rendimiento de diferentes modelos y elegir el mejor para su caso de uso específico. Ofrece un medio estandarizado de comparar los resultados de las métricas de rendimiento brutas con factores como la eficiencia computacional y la escalabilidad.

El desarrollo de nuevos modelos

Los conocimientos que se obtienen de la evaluación del LLM pueden orientar el desarrollo de nuevos modelos. Ayuda a los investigadores a encontrar formas de crear nuevas técnicas de entrenamiento, diseños de modelos o capacidades específicas.

La confianza de usuarios y partes interesadas

La evaluación de LLM favorece la transparencia en el desarrollo y genera confianza en los outputs. Como resultado, ayuda a las organizaciones a establecer expectativas realistas y fomentar la confianza en las herramientas de IA.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Conocimientos y noticias organizados de expertos sobre IA, la nube y mucho más en el boletín semanal Think.  

Evaluación de modelos LLM frente a evaluación de sistemas LLM

Aunque están estrechamente relacionadas, la evaluación de LLM y la evaluación de sistemas LLM tienen enfoques distintos.

La evaluación de LLM (que también puede denominarse evaluación de modelos LLM) evalúa el rendimiento de un modelo. Examina el propio modelo de lenguaje, y se centra en su capacidad para comprender y generar texto en diversas tareas y ámbitos. La evaluación de modelos suele consistir en probar sus capacidades básicas. Estas capacidades incluyen la comprensión del lenguaje, la calidad de los resultados generados y el rendimiento en tareas específicas.

La evaluación del sistema LLM es más completa y proporciona conocimientos sobre el rendimiento de extremo a extremo de la aplicación impulsada por LLM. La evaluación del sistema examina todo el ecosistema que se construye en torno a un LLM. Este esfuerzo incluye la escalabilidad, la seguridad y la integración con otros componentes, como API o bases de datos.

En resumen, la evaluación del modelo se centra en asegurarse de que el LLM funciona para tareas específicas, mientras que la evaluación del sistema es una mirada más holística a su uso y eficacia generales. Ambas son esenciales para desarrollar aplicaciones LLM sólidas y eficaces.

Métricas de evaluación de LLM

El primer paso en la evaluación de un LLM es definir los criterios generales de evaluación basados en el uso previsto del modelo. Existen numerosas métricas que se utilizan para la evaluación, pero algunas de las más comunes incluyen:

  • exactitud
  • Recuperación
  • Puntuación de la F1
  • Coherencia
  • Perplejidad
  • BLEU
  • ROUGE
  • Latencia
  • Toxicidad

exactitud

Calcula el porcentaje de respuestas correctas en tareas como la clasificación o la respuesta a preguntas.

Recuperación

Mide el número real de verdaderos positivos, o predicciones correctas, frente a los falsos en las respuestas LLM.

Puntuación de la F1

Combina precisión y recuperación en una sola métrica. Las puntuaciones F1 oscilan entre 0 y 1, donde 1 significa excelente memoria y precisión.

Coherencia

Evalúa el flujo lógico y la coherencia del texto generado.

Perplejidad

Mide lo bien que el modelo predice una secuencia de palabras o una muestra de texto. Cuanto más sistemáticamente prediga el modelo el resultado correcto, menor será su puntuación de perplejidad.

BLEU (suplente de evaluación bilingüe)

Evalúa la calidad del texto generado por máquinas, especialmente en tareas de traducción.

ROUGE (suplente orientado a la recuperación para la evaluación de Gisting)

Evalúa la calidad de los resúmenes de texto mediante su comparación con los creados por humanos.

Latencia

Mide la eficiencia y la velocidad general del modelo.

Toxicidad

Mide la presencia de contenidos nocivos u ofensivos en los outputs del modelo.

Aplicación de marcos de evaluación y puntos de referencia del LLM

Los evaluadores de LLM establecen criterios de evaluación claros y, a continuación, seleccionan un marco de evaluación que ofrezca una metodología exhaustiva para evaluar el rendimiento de un modelo. Por ejemplo, el marco de evaluación de modelos fundacionales de IBM (FM-eval) se utiliza para validar y evaluar nuevos LLM de forma sistemática, reproducible y coherente.

Dentro de los marcos de evaluación se encuentran las referencias de LLM, que son conjuntos de datos o tareas estandarizados que se utilizan para analizar los resultados y orientar el proceso de evaluación. Mientras que los marcos definen cómo evaluar un LLM, las referencias definen qué evaluar, es decir, las tareas y los datos específicos.

Las referencias LLM consisten en conjuntos de datos de muestra, tareas y plantillas de instrucciones para poner a prueba los LLM en habilidades específicas, como la respuesta a preguntas, la traducción automática, el resumen y el análisis de sentimientos. También incluyen métricas para evaluar el rendimiento y un mecanismo de puntuación. Sus criterios de evaluación pueden basarse en la verdad básica o en las preferencias humanas.

Al evaluar los LLM en estas referencias, los desarrolladores pueden comparar el rendimiento de diferentes modelos y realizar un seguimiento del progreso a lo largo del tiempo. Algunos ejemplos de puntos de referencia de LLM ampliamente utilizados incluyen:

  • Conjunto de datos MMLU (Massive Multitask Language Understanding), que consiste en una colección de preguntas de opción múltiple que abarcan varios ámbitos.
  • HumanEval, que evalúa el rendimiento de un LLM en términos de generación de código, especialmente la corrección funcional.
  • TruthfulQA, que aborda los problemas de alucinación midiendo la capacidad de un LLM para generar respuestas veraces a preguntas.
  • General Language Understanding Evaluation (GLUE), y SuperGLUE, que pone a prueba el rendimiento de los modelos de procesamiento del lenguaje natural (PLN), especialmente los diseñados para tareas de comprensión lingüística.
  • La biblioteca de conjuntos de datos Hugging Face, que proporciona acceso de código abierto a numerosos conjuntos de datos de evaluación.

Los puntos de referencia seleccionados se introducen en el LLM a través de pruebas zero-shot, few-shot y de afinación para comprobar el funcionamiento del modelo. Con las pruebas few-shot, el LLM se evalúa en función de su capacidad de rendimiento con datos limitados después de recibir un pequeño número de ejemplos etiquetados que demuestran cómo realizar la tarea. Las pruebas zero-shot piden al LLM que complete una tarea sin ningún ejemplo, para comprobar cómo se adapta a las nuevas circunstancias. Y lla afinación entrena el modelo en un conjunto de datos similar a la referencia para mejorar el dominio del LLM en una tarea específica.

Los resultados de la evaluación de LLM pueden utilizarse para refinar e iterar el modelo ajustando los parámetros, afinando o incluso reentrenando con nuevos datos.

"LLM as a judge" frente a "human in the loop"

A la hora de evaluar los outputs de los modelos, los desarrolladores e investigadores utilizan dos enfoques: las evaluaciones "LLM-as-a-judge" y "human-in-the-loop".

En la evaluación del "LLM-as-a-judge", el propio LLM se utiliza para evaluar la calidad de sus propios outputs. Por ejemplo, se podría comparar el texto generado por un modelo con un conjunto de datos reales, o utilizar métricas como la perplejidad o F1 para medir los resultados.

Para un enfoque "human-in-the-loop", los evaluadores humanos miden la calidad de los outputs del LLM. Este tipo de evaluación puede ser útil para evaluaciones más matizadas, como la coherencia, la relevancia y la experiencia del usuario, que son difíciles de capturar únicamente mediante métricas automatizadas.

Casos de uso de evaluación de LLM

La evaluación de LLM tiene muchos casos de uso prácticos. Algunos ejemplos son:

La evaluación de la precisión de un sistema de respuesta a preguntas

En la generación aumentada por recuperación (RAG), la evaluación LLM puede ayudar a probar la calidad de las respuestas generadas por el modelo. Los investigadores pueden utilizar conjuntos de datos como SQuAD (Stanford Question Answering Dataset) o TruthfulQA para comprobar la precisión de un sistema de respuesta a preguntas basado en LLM comparando las respuestas del modelo con las respuestas reales.

La evaluación de la fluidez y coherencia del texto generado

Mediante el uso de métricas como BLEU y la evaluación humana, los investigadores pueden comprobar la calidad de las respuestas textuales que ofrecen los chatbots o los sistemas de traducción automática. Esto ayuda a garantizar que el texto generado sea fluido, coherente y adecuado al contexto.

La detección de sesgos y toxicidad

Mediante el uso de conjuntos de datos y métricas especializados, los investigadores pueden evaluar la presencia de sesgos y contenido tóxico en el texto generado por LLM. Por ejemplo, el conjunto de datos ToxiGen puede utilizarse para evaluar la toxicidad de los outputs de los modelos, lo que podría conducir a aplicaciones más seguras e inclusivas.

La comparación del rendimiento de diferentes LLM

Los investigadores pueden utilizar conjuntos de datos de referencia como GLUE o SuperGLUE para comparar el rendimiento de distintos LLM en diversas tareas de PLN, como el análisis de sentimientos o el reconocimiento de entidades con nombre.

En estos y otros casos de uso, la evaluación de LLM puede generar importantes beneficios para las empresas. Mediante la identificación de áreas de mejora y oportunidades para abordar los puntos débiles, la evaluación del LLM puede conducir a una mejor experiencia del usuario, menos riesgos y una ventaja competitiva potencial.

Los desafíos de la evaluación de LLM

A pesar de todos sus beneficios, la evaluación de LLM también se enfrenta a algunos retos y limitaciones. El rápido ritmo de desarrollo de los LLM dificulta el establecimiento de puntos de referencia estandarizados y duraderos. Evaluar la comprensión contextual es todo un reto, al igual que detectar los matices más sutiles de la parcialidad.

La explicabilidad también es un problema: los LLM a menudo se consideran "cajas negras", lo que dificulta la interpretación de su proceso de toma de decisiones a efectos de evaluación y la identificación de los factores que contribuyen a sus outputs.

Además, muchos conjuntos de datos de evaluación no son representativos de varios idiomas o culturas. Como resultado, los modelos que se prueban con estos conjuntos de datos pueden tener un buen rendimiento en referencias específicas pero, sin embargo, fallar en escenarios del mundo real.

A medida que los LLM y otras aplicaciones complejas de machine learning continúan desarrollándose y aplicándose de nuevas maneras. Superar estos desafíos para garantizar una evaluación sólida desempeñará un papel importante para ayudar a los evaluadores y desarrolladores a mejorar la eficacia, la seguridad y el uso ético de los LLM.

Recursos

¿Qué es el gobierno de la IA?
Temas relacionados
¿Qué es la gestión de riesgos de la IA?
Blog
¿Qué es la ética de la IA?
Temas relacionados
¿Qué es LLMOps?
Temas relacionados

Dé el siguiente paso

Acelere flujos de trabajo de IA responsables, transparentes y explicables a lo largo del ciclo de vida, tanto para modelos generativos como de machine learning. Dirija, gestione y controle las actividades de IA de su organización para gestionar mejor la creciente normativa sobre IA y detectar y mitigar los riesgos.

Explore watsonx.governance Solicite una demostración en directo