¿Qué son los LLM (grandes modelos de lenguaje)?

Autor

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué son los LLM?

Los modelos de lenguaje grande (LLM) son una categoría de modelos de aprendizaje profundo entrenados con inmensas cantidades de datos, lo que los hace capaces de comprender y generar lenguaje natural y otros tipos de contenido para realizar una amplia gama de tareas. Los LLM se basan en un tipo de arquitectura de redes neuronales llamada transformador que se destaca en el manejo de secuencias de palabras y la captura de patrones en el texto.

Los LLM funcionan como máquinas gigantes de predicción estadística que predicen repetidamente la siguiente palabra de una secuencia. Aprenden patrones en su texto y generan un lenguaje que sigue esos patrones.

Los LLM representan un gran salto en la forma en que los humanos interactúan con la tecnología porque son el primer sistema de IA que puede manejar el lenguaje humano no estructurado a escala, lo que permite una comunicación natural con las máquinas. Mientras que los motores de búsqueda tradicionales y otros sistemas programados empleaban algoritmos para hacer coincidir palabras clave, los LLM capturan un contexto, matices y razonamiento más profundos. Los LLM, una vez entrenados, pueden adaptarse a muchas aplicaciones que implican interpretar texto, como resumir un artículo, depurar código o redactar una cláusula legal. Cuando se les dan capacidades agénticas, los LLM pueden realizar, con diversos grados de autonomía, diversas tareas que de otro modo las realizarían los humanos.

Los LLM son la culminación de décadas de progreso en procesamiento de lenguaje natural (PLN) e investigación en machine learning, y su desarrollo es en gran parte responsable del auge en los avances en inteligencia artificial a finales de la década de 2010 y 2020. Los LLM populares se han convertido en nombres familiares, llevando la IA generativa al primer plano del interés público. Los LLM también se utilizan ampliamente en las empresas, y las organizaciones invierten mucho en numerosas funciones comerciales y casos de uso.

Los LLM son fácilmente accesibles para el público a través de interfaces como Claude de Anthropic,ChatGPT de Open AI, Copilot de Microsoft, modelos Llama de Meta y el asistente Gemini de Google, junto con sus modelos BERT y PaLM. IBM mantiene una serie de modelos Granite en watsonx.ai, que se ha convertido en la columna vertebral de la IA generativa para otros productos de IBM, como watsonx Assistant y watsonx Orchestrate. 

Preentrenamiento de modelos de lenguaje grandes

El entrenamiento comienza con una gran cantidad de datos: miles de millones o billones de palabras de libros, artículos, sitios web, código y otras fuentes de texto. Los científicos de datos supervisan la limpieza y el preprocesamiento para eliminar errores, duplicaciones y contenido no deseado.

Este texto se desglosa en unidades más pequeñas y legibles por máquina llamadas "tokens", durante un proceso de "tokenización". Los tokens son unidades más pequeñas, como palabras, subpalabras o caracteres. Esto estandariza el lenguaje para que las palabras raras y novedosas puedan manejarse de manera coherente.

Los LLM se entrenan inicialmente con aprendizaje autosupervisado, un machine learning técnico que utiliza datos sin etiquetar para aprendizaje supervisado. El aprendizaje autosupervisado no requiere conjuntos de datos etiquetados, pero está estrechamente relacionado con el aprendizaje supervisado en el sentido de que optimiza el rendimiento frente a una "verdad fundamental". En el aprendizaje autosupervisado, las tareas están diseñadas de tal manera que la verdad fundamental pueda inferirse a partir de datos no etiquetados. En lugar de que se le diga cuál es el "resultado correcto" para cada entrada, como en el aprendizaje supervisado, el modelo intenta encontrar patrones, estructuras o relaciones en los datos por sí mismo.

Autoatención

El modelo pasa los tokens a través de una red transformadora. Los modelos transformadores, introducidos en 2017, son útiles debido a su mecanismo de autoatención, que les permite "prestar atención" a diferentes tokens en diferentes momentos. Esta técnica es la pieza central del transformador y su principal innovación. La autoatención es útil en parte porque permite que el modelo de IA calcule las relaciones y dependencias entre los tokens, especialmente los que están distantes entre sí en el texto. Las arquitecturas transformadoras también permiten la paralelización, lo que hace que el proceso sea mucho más eficiente que los métodos anteriores. Estas cualidades permitieron a los LLM manejar grandes conjuntos de datos sin precedentes.

Una vez que el texto se divide en tokens, cada token se asigna a un vector de números llamado incorporación. Las redes neuronales consisten en capas de neuronas artificiales, donde cada neurona realiza una operación matemática. Los transformadores constan de muchas de estas capas, y en cada una, las incorporaciones se ajustan ligeramente, convirtiéndose en representaciones contextuales más ricas de capa a capa.

El objetivo en este proceso es que el modelo aprenda asociaciones semánticas entre palabras, de modo que palabras como “ladrar” y “perro” aparezcan más juntas en el espacio vectorial en un ensayo sobre perros que “ladrar” y “árbol”, basándose en las palabras circundantes relacionadas con perros en el ensayo. Los transformadores también agregan codificaciones posicionales, que le dan a cada token información sobre su lugar en la secuencia.

Para calcular la atención, cada incorporación se proyecta en tres vectores distintos utilizando matrices de peso aprendidas: una consulta, una clave y un valor. La consulta representa lo que "busca" un token determinado, la clave representa la información que contiene cada token y el valor "devuelve" la información de cada vector clave, escalada por su respectivo peso de atención.

Luego, las puntuaciones de alineación se calculan como la similitud entre consultas y claves. Estas puntuaciones, una vez normalizadas en pesos de atención, determinan cuánto de cada vector de valor fluye hacia la representación del token actual. Este proceso permite que el modelo se centre de manera flexible en el contexto relevante mientras ignora tokens menos importantes (como "árbol").

Por lo tanto, la autoatención crea conexiones "ponderadas" entre todos los tokens de manera más eficiente que las arquitecturas anteriores. El modelo asigna pesos a cada relación entre los tokens. Los LLM pueden tener miles de millones o billones de estos pesos, que son un tipo de parámetro de LLM, las variables de configuración internas de un modelo de machine learning que controlan cómo procesa los datos y hace predicciones. El número de parámetros se refiere a cuántas de estas variables existen en un modelo, y algunos LLM contienen miles de millones de parámetros. Los llamados modelos de lenguaje pequeños son de menor escala y alcance con comparativamente pocos parámetros, lo que los hace adecuados para su despliegue en dispositivos más pequeños o en entornos con recursos limitados.

Durante el entrenamiento, el modelo hace predicciones a través de millones de ejemplos extraídos de sus datos de entrenamiento, y una función de pérdida cuantifica el error de cada predicción. A través de un ciclo iterativo de hacer predicciones y luego actualizar los pesos del modelo a través de la retropropagación y el descenso del gradiente, el modelo "aprende" los pesos en las capas que producen los vectores de consulta, clave y valor.

Una vez que esos pesos están suficientemente optimizados, son capaces de tomar la incorporación vectorial original de cualquier token y producir vectores de consulta, clave y valor para ello que, al interactuar con los vectores generados para todos los demás tokens, producirán puntajes de alineación “mejores” que a su vez resultan en pesos de atención que ayudan al modelo a producir mejores resultados. El resultado final es un modelo que ha aprendido patrones en gramática, hechos, estructuras de razonamiento, estilos de escritura y más.

Refinamiento de modelos de lenguaje grande

Después del entrenamiento (o en el contexto de entrenamiento adicional, "preentrenamiento"), los LLM se pueden ajustar para que sean más útiles en ciertos contextos. Por ejemplo, un modelo fundacional entrenado en un gran conjunto de datos de conocimiento general puede ajustarse en un corpus de preguntas y respuestas legales para crear un chatbot para el campo legal.

Estas son algunas de las formas más comunes de ajuste. Los profesionales pueden utilizar un método o una combinación de varios.

Ajuste supervisado

El refinamiento ocurre con mayor frecuencia en un contexto supervisado con un conjunto de datos mucho más pequeño y etiquetado. El modelo actualiza sus pesos para que coincidan mejor con la nueva verdad fundamental (en este caso, datos etiquetados).

Si bien el entrenamiento previo tiene como objetivo brindar al modelo un amplio conocimiento general, el refinamiento adapta un modelo de propósito general a tareas específicas como el resumen, la clasificación o la atención al cliente. Estas adaptaciones funcionales representan nuevos tipos de tareas. El refinamiento supervisado produce resultados más parecidos a los ejemplos proporcionados por humanos, lo que requiere muchos menos recursos que el entrenamiento desde cero.

El ajuste supervisado también es útil para la personalización específica de un dominio, como entrenar un modelo en documentos médicos para que tenga la capacidad de responder preguntas relacionadas con la atención médica. 

Aprendizaje por refuerzo a partir de feedback humano

Para refinar aún más los modelos, los científicos de datos suelen utilizar el aprendizaje por refuerzo a partir del feedback humano (RLHF), una forma de ajuste en la que los humanos clasifican los resultados del modelo y el modelo se entrena para preferir los resultados que los humanos clasifican más alto. El RLHF se utiliza a menudo en la alineación, un proceso que consiste en hacer que los resultados del LLM sean útiles, seguros y coherentes con los valores humanos.

El RLHF también es particularmente útil para la alineación estilística, donde un LLM se puede ajustar para responder de una manera más informal, humorística o coherente con la marca. La alineación estilística implica entrenar para los mismos tipos de tareas, pero producir resultados en un estilo específico.

Modelos de razonamiento

El refinamiento puramente supervisado enseña a un modelo a imitar ejemplos, pero no necesariamente fomenta un mejor razonamiento, lo que implica procesos abstractos de varios pasos. Estas tareas no siempre tienen abundantes datos etiquetados, por lo que el aprendizaje por refuerzo se utiliza a menudo en la creación de modelos de razonamiento, LLM que se han ajustado para dividir problemas complejos en pasos más pequeños, a menudo llamados "rastros de razonamiento", antes de generar un resultado final. Los medios cada vez más sofisticados de entrenar modelos les brindan razonamiento de cadena de pensamiento y otras estrategias de toma de decisiones de varios pasos.

Afinación de instrucciones

Otra forma de personalización de LLM es el ajuste de instrucciones, un proceso diseñado específicamente para mejorar la capacidad de un modelo para seguir instrucciones humanas. Las muestras de entrada en un conjunto de datos de instrucciones consisten completamente en tareas que se asemejan a las solicitudes que los usuarios podrían hacer en sus instrucciones; los resultados demuestran respuestas deseables a esas solicitudes. Dado que los LLM previamente entrenados no están inherentemente optimizados para seguir instrucciones u objetivos conversacionales, el ajuste de instrucciones se utiliza para alinear mejor el modelo con la intención del usuario.

Uso de modelos de lenguaje grandes

Una vez entrenados, los modelos de lenguaje grandes funcionan respondiendo a las instrucciones tokenizando la instrucción, convirtiéndola en incorporaciones y utilizando su transformador para generar texto un token a la vez, calculando las probabilidades de todos los tokens potenciales y generando los resultados. Este proceso, llamado inferencia, se repite hasta que se completan los resultados. El modelo no “conoce” la respuesta final de antemano; utiliza todas las relaciones estadísticas que aprendió en el entrenamiento para predecir un token a la vez, haciendo su mejor conjetura en cada paso.

La forma más fácil y rápida de obtener conocimientos específicos del dominio de un LLM de propósito general es a través de la ingeniería rápida, que no requiere entrenamiento adicional. Los usuarios pueden modificar las instrucciones de muchas maneras. Por ejemplo, una instrucción como "responder con la voz de un profesional de la salud capacitado" podría arrojar resultados más relevantes (tenga en cuenta que no se recomienda el uso de LLM para asesoramiento médico).

Los LLM tienen otras estrategias para controlar sus resultados, como la temperatura de LLM, que controla la aleatoriedad del texto generado por los LLM durante la inferencia, o el muestreo top-k/top-p, que limita el conjunto de tokens considerados a los más probables, equilibrando la creatividad y la coherencia.

La ventana de contexto es el número máximo de tokens que un modelo puede "ver" y usar a la vez al generar texto. Los primeros LLM tenían ventanas cortas, pero los LLM más nuevos tienen cientos de miles de tokens en sus ventanas de contexto, lo que permite casos de uso como resumir trabajos de investigación completos, realizar asistencia de código en grandes bases de código y mantener conversaciones continuas largas con los usuarios.

La generación aumentada por recuperación (RAG, por sus siglas en inglés) es un método para conectar un modelo previamente entrenado con bases de conocimiento externas, lo que les permite ofrecer respuestas más relevantes con un mayor nivel de precisión. La información recuperada se pasa a la ventana de contexto del modelo, por lo que el modelo puede usarla al generar respuestas, sin necesidad de volver a entrenar. Por ejemplo, al conectar un LLM a una base de datos dinámica de servicios meteorológicos, un LLM puede recuperar información para un usuario sobre el informe meteorológico de ese día.

AI Academy

Por qué los modelos fundacionales son un cambio de paradigma para la IA

Conozca una nueva clase de modelos de IA flexibles y reutilizables que pueden desbloquear nuevos ingresos, reducir costos y aumentar la productividad, luego use nuestra guía para investigar a profundidad.

Desplegar LLMs

Crear un LLM desde cero es un proceso complejo y que requiere muchos recursos. Los LLM más populares son el resultado de inmensas cantidades de datos, GPU, energía y experiencia humana, razón por la cual la mayoría son creados y mantenidos por grandes empresas tecnológicas con recursos expansivos.

Sin embargo, muchos de estos modelos son accesibles para todos los desarrolladores a través de API. Los desarrolladores pueden usar modelos preentrenados para crear chatbots, sistemas de recuperación de conocimientos, herramientas de automatización y más. Para un mayor control sobre los datos y la personalización, muchos modelos de código abierto se pueden desplegar localmente o en la nube. Github, Hugging Face, Kaggle y otras plataformas hacen que el desarrollo de IA sea accesible para todos.

Los desarrolladores pueden utilizar los LLM como base para todo tipo de aplicaciones de IA. Uno de los desarrollos más interesantes en la IA es el sistema agéntico. Los agentes de IA no solo piensan; lo hacen. Por sí mismos, los LLM simplemente generan texto basado en el contexto, pero pueden integrarse con memoria, API, lógica de decisión y otros sistemas externos para realizar tareas específicas, como reservar un vuelo o pilotar un vehículo autónomo.

Casos de uso de modelos de lenguaje grandes 

Los LLM están redefiniendo los procesos de negocio y han demostrado su versatilidad en innumerables casos de uso en muchas industrias.

  • Generación de texto: los LLM pueden realizar todo tipo de tareas de creación de contenido como redactar correos electrónicos, entradas en el blog o memorandos legales en respuesta a las instrucciones.

  • Resumen de texto: los LLM pueden resumir artículos largos, noticias, informes de investigación, documentación corporativa e historial de clientes en textos completos adaptados a un formato y estilo de salida deseados.

  • Generación de código: las plataformas de asistencia de código ayudan a los desarrolladores a crear aplicaciones, encontrar errores en el código y descubrir problemas de seguridad en múltiples lenguajes de programación, incluso a traducir entre ellos.

  • Análisis de sentimiento: el tono del cliente se analiza con el fin de comprender mejor el feedback de los clientes a escala. 

  • Traducción de idiomas: la traducción automatizada proporciona una cobertura más amplia a organizaciones de todos los idiomas y geografías con traducciones fluidas y capacidades multilingües.

  • Razonamiento: los LLM pueden resolver problemas matemáticos, planificar procesos de varios pasos y explicar conceptos complejos en términos más simples.

Evaluación de LLM

Los LLM son herramientas poderosas, pero vienen con varias limitaciones. Una de las principales preocupaciones es la precisión. Durante las alucinaciones, el modelo genera información que es falsa o engañosa mientras suena plausible. Los LLM también pueden reflejar y amplificar los sesgos presentes en sus datos de entrenamiento, produciendo resultados injustos u ofensivos. Además, sus demandas de Recursos son significativas: entrenar y ejecutar LLM requiere grandes cantidades de potencia y energía, lo que aumenta las preocupaciones ambientales y de costos.

Los profesionales pueden mitigar estos aspectos negativos de los LLM a través de una gobernanza de la IA, procesos, estándares y medidas de protección que ayudan a garantizar que los sistemas y herramientas de IA sean seguros y éticos. Una parte clave de la gobernanza implica evaluar los modelos con respecto a los puntos de referencia. Los puntos de referencia de LLM proporcionan puntuaciones cuantitativas, lo que facilita la comparación de modelos. Debido a que los LLM son sistemas de propósito general capaces de realizar una amplia variedad de tareas, su evaluación requiere múltiples dimensiones en lugar de un único punto de referencia. Los investigadores y profesionales analizan cualidades como la precisión, la eficiencia, la seguridad, la equidad y la solidez para determinar qué tan bien funciona un modelo.

Los LLM también se evalúan sobre la base de la alineación y la seguridad, con técnicas como el equipo rojo, donde los evaluadores intentan intencionalmente que el modelo produzca respuestas inseguras o con sesgo para exponer las debilidades. Las evaluaciones de imparcialidad y sesgo pueden ayudar a los profesionales a evitar que los LLM reproduzcan estereotipos dañinos o desinformación.

Los LLM también se evalúan comúnmente en función de su eficiencia. La velocidad, el consumo de energía, el rendimiento del token, la huella de memoria y la capacidad de manejar ventanas de contexto largas son algunas de las métricas comunes utilizadas para evaluar la eficiencia con la que los LLM pueden llegar a los resultados.

Una breve historia de los LLM

La historia de los LLM se remonta a los primeros días de la computación y el procesamiento de lenguaje natural, cuando los investigadores utilizaban sistemas basados en reglas y métodos estadísticos para modelar el texto. Estos primeros enfoques podían capturar patrones de palabras locales, pero no lograban comprender las dependencias de largo alcance o la semántica más profunda.

Un cambio importante se produjo en la década de 2010 con el auge de las redes neuronales, con incorporaciones de palabras como Word2Vec y GloVe, que representaban las palabras como vectores en un espacio continuo, lo que permitía que los modelos aprendieran relaciones semánticas. Los modelos de secuencia, como las redes neuronales y las redes de memoria a largo plazo (LSTM), surgieron para manejar mejor los datos secuenciales.

En 2017, Vaswani et al. introdujo la arquitectura transformadora en el documento histórico "Attention Is All You Need".[1] Los transformadores hicieron posible entrenar modelos en grandes conjuntos de datos, marcando el comienzo de la era moderna de LLM. BERT (2018) de Google, un transformador de solo codificador, demostró el poder de los transformadores para comprender el lenguaje, mientras que la serie de transformadores generativos preentrenados (GPT) de OpenAI, basada en una variante de solo decodificador, mostró cómo el preentrenamiento generativo en texto a escala de Internet podría producir generación de lenguaje notablemente fluido. Casi al mismo tiempo, los modelos codificador-decodificador como T5 de Google y BART de Facebook mostraron las fortalezas del diseño completo de secuencia a secuencia para tareas como la traducción y el resumen. GPT-2 (2019) atrajo la atención por su capacidad para generar párrafos coherentes, mientras que GPT-3 (2020), con 175 000 millones de parámetros, consolidó los LLM como una fuerza transformadora en la IA.

Además, las nuevas arquitecturas están desafiando la popularidad de los transformadores en los LLM. Los modelos Mamba funcionan mediante el uso de un modelo de espacio de estado con actualizaciones selectivas que filtran y combinan de manera eficiente la información pasada, lo que le permite capturar dependencias de largo alcance. Los LLM de difusión comienzan con ruido aleatorio y lo eliminan gradualmente paso a paso, guiados por un modelo aprendido, hasta que surge un texto coherente. Ambas arquitecturas pueden ser mucho más eficientes que los transformadores.

Soluciones relacionadas
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas mediante la incorporación de IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM watsonx en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Explore watsonx.ai Explore las soluciones de IA
Notas de pie de página

1. “Attention is all you need”, Vaswani et al, arXiv, 12 de junio de 2017