Los modelos de lenguaje de gran tamaño (LLM) son una categoría de modelos de deep learning entrenados sobre inmensas cantidades de datos, lo que los hace capaces de comprender y generar lenguaje natural y otros tipos de contenidos para realizar una amplia gama de tareas. Los LLM se basan en un tipo de arquitectura de red neuronal llamada transformador que destaca en la gestión de secuencias de palabras y la captura de patrones en el texto.
Los LLM funcionan como máquinas gigantes de predicción estadística que predicen repetidamente la siguiente palabra de una secuencia. Aprenden patrones en su texto y generan un lenguaje que sigue esos patrones.
Los LLM representan un gran salto en la forma en que los humanos interactúan con la tecnología porque son el primer sistema de IA que puede manejar el lenguaje humano no estructurado a escala, lo que permite la comunicación natural con las máquinas. Mientras que los motores de búsqueda tradicionales y otros sistemas programados utilizaban algoritmos para hacer coincidir las palabras clave, los LLM capturan un contexto, un matiz y un razonamiento más profundos. Los LLM, una vez entrenados, pueden adaptarse a muchas aplicaciones que implican la interpretación de texto, como resumir un artículo, depurar código o redactar una cláusula legal. Cuando se les otorgan capacidades agénticas, los LLM pueden realizar, con diversos grados de autonomía, diversas tareas que de otro modo serían realizadas por humanos.
Los LLM son la culminación de décadas de progreso en la investigación del procesamiento del lenguaje natural (PLN) y el machine learning, y su desarrollo es en gran parte responsable de la explosión de los avances en inteligencia artificial a finales de la década de 2010 y la década de 2020. Los LLM populares se han convertido en nombres familiares, lo que ha llevado a la IA generativa a la vanguardia del interés público. Los LLM también se utilizan ampliamente en las empresas, y las organizaciones invierten mucho en numerosas funciones empresariales y casos de uso.
Los LLM son fácilmente accesibles para el público a través de interfaces como Claude de Anthropic,ChatGPT de Open AI, Copilot de Microsoft, Llama de Meta y el asistente Gemini de Google, junto con sus modelos BERT y PaLM. IBM mantiene una serie de modelos Granite en watsonx.ai, que se ha convertido en la columna vertebral de la IA generativa para otros productos de IBM como watsonx Assistant y watsonx Orchestrate.
El entrenamiento comienza con una enorme cantidad de datos: miles de millones o billones de palabras de libros, artículos, sitios web, código y otras fuentes de texto. Los científicos de datos supervisan la limpieza y el preprocesamiento para eliminar errores, duplicaciones y contenidos no deseados.
Este texto se divide en unidades más pequeñas y legibles por máquina llamadas "tokens", durante un proceso de "tokenización". Los tokens son unidades más pequeñas, como palabras, subpalabras o caracteres. Esto estandariza el lenguaje para que las palabras raras y novedosas puedan manejarse de manera consistente.
Los LLM se entrenan inicialmente con aprendizaje autosupervisado, una técnica de machine learning que utiliza datos no etiquetados para el aprendizaje supervisado. El aprendizaje autosupervisado no requiere conjuntos de datos etiquetados, pero está estrechamente relacionado con el aprendizaje supervisado en el sentido de que optimiza el rendimiento con respecto a una "verdad de base". En el aprendizaje autosupervisado, las tareas se diseñan de forma que la verdad de base pueda inferirse a partir de datos no etiquetados. En lugar de que se le diga cuál es el "resultado correcto" para cada entrada, como en el aprendizaje supervisado, el modelo intenta encontrar patrones, estructuras o relaciones en los datos por sí mismo.
El modelo pasa los tokens a través de una red de transformadores. Los modelos de transformador, introducidos en 2017, son útiles debido a su mecanismo de autoatención, que les permite "prestar atención" a diferentes tokens en diferentes momentos. Esta técnica es la pieza central del transformador y su principal innovación. La autoatención es útil en parte porque permite que el modelo de IA calcule las relaciones y dependencias entre los tokens, especialmente los que están distantes entre sí en el texto. Las arquitecturas del transformador también permiten la paralelización, lo que hace que el proceso sea mucho más eficiente que los métodos anteriores. Estas cualidades permitieron a los LLM manejar grandes conjuntos de datos sin precedentes.
Una vez que el texto se divide en tokens, cada token se asigna a un vector de números llamado embedding. Las redes neuronales consisten en capas de neuronas artificiales, donde cada neurona realiza una operación. Los transformadores constan de muchas de estas capas, y en cada una de ellas, los embeddings se ajustan ligeramente, convirtiéndose en representaciones contextuales más ricas de capa a capa.
El objetivo de este proceso es que el modelo aprenda asociaciones semánticas entre palabras, de modo que palabras como "ladrar" y "perro" aparezcan más juntas en el espacio vectorial en un ensayo sobre perros que "ladrar" y "árbol", según las palabras circundantes relacionadas con perros en el ensayo. Los transformadores también añaden codificaciones posicionales, que dan a cada token información sobre su lugar en la secuencia.
Para calcular la atención, cada embedding se proyecta en tres vectores distintos mediante matrices de ponderación aprendidas: una consulta, una clave y un valor. La consulta representa lo que "busca" un token determinado, la clave representa la información que contiene cada token y el valor "devuelve" la información de cada vector clave, escalada por su respectivo peso de atención.
A continuación, las puntuaciones de alineación se calculan como la similitud entre consultas y claves. Estas puntuaciones, una vez normalizadas en ponderaciones de atención, determinan cuánto de cada vector de valor fluye hacia la representación del token actual. Este proceso permite que el modelo se centre de forma flexible en el contexto relevante mientras ignora tokens menos importantes (como "árbol").
Por lo tanto,la autoatención crea conexiones "ponderadas" entre todos los tokens de manera más eficiente que las arquitecturas anteriores. El modelo asigna ponderaciones a cada relación entre los tokens. Los LLM pueden tener miles de millones o billones de estos pesos, que son un tipo de parámetro LLM, las variables de configuración internas de un modelo de machine learning que controlan cómo procesa los datos y realiza predicciones. El número de parámetros se refiere a cuántas de estas variables existen en un modelo, y algunos LLM contienen miles de millones de parámetros. Los llamados modelos de lenguaje pequeño son de menor escala y alcance, con relativamente pocos parámetros, lo que los hace adecuados para su implementación en dispositivos más pequeños o en entornos con recursos limitados.
Durante el entrenamiento, el modelo hace predicciones a través de millones de ejemplos extraídos de sus datos de entrenamiento, y una función de pérdida cuantifica el error de cada predicción. A través de un ciclo iterativo de hacer predicciones y luego actualizar los pesos del modelo mediante retropropagación y descenso de gradiente, el modelo "aprende" los pesos en las capas que producen los vectores de consulta, clave y valor.
Una vez que esas ponderaciones están suficientemente optimizadas, pueden tomar el embedding vectorial original de cualquier token y producir vectores de consulta, clave y valor para él que, al interactuar con los vectores generados para todos los demás tokens, producirán puntuaciones de alineación "mejores". que a su vez dan como resultado ponderaciones de atención que ayudan al modelo a producir mejores resultados. El resultado final es un modelo que ha aprendido patrones en gramática, hechos, estructuras de razonamiento, estilos de escritura y más.
Después del entrenamiento (o en el contexto del entrenamiento adicional, "preentrenamiento"), los LLM pueden ajustarse para hacerlos más útiles en ciertos contextos. Por ejemplo, un modelo fundacional entrenado en un gran conjunto de datos de conocimiento general puede ajustarse en un corpus de preguntas y respuestas legales para crear un chatbot para el campo legal.
Estas son algunas de las formas más comunes de fine-tuning. Los profesionales pueden utilizar un método o una combinación de varios.
El fine-tuning suele producirse en un contexto supervisado con un conjunto de datos mucho más pequeño y etiquetado. El modelo actualiza sus ponderaciones para adaptarse mejor a la nueva verdad de base (en este caso, datos etiquetados).
Mientras que el preentrenamiento pretende dotar al modelo de un amplio conocimiento general, el fine-tuning adapta un modelo de propósito general a tareas específicas como el resumen, la clasificación o la atención al cliente. Estas adaptaciones funcionales representan nuevos tipos de tareas. El fine-tuning supervisado produce resultados más cercanos a los ejemplos proporcionados por humanos, lo que requiere muchos menos recursos que el entrenamiento desde cero.
El fine-tuning supervisado también es útil para la personalización específica de un dominio, como entrenar un modelo en documentos médicos para que tenga la capacidad de responder preguntas relacionadas con la atención médica.
Para refinar aún más los modelos, los científicos de datos suelen utilizar el aprendizaje por refuerzo a partir de feedback humano (RLHF), una forma de fine-tuning en la que los humanos clasifican los resultados del modelo y el modelo se entrena para preferir los resultados que los humanos clasifican más alto. El RLHF se utiliza a menudo en la alineación, un proceso que consiste en hacer que los resultados del LLM sean útiles, seguros y coherentes con los valores humanos.
El RLHF también es particularmente útil para la alineación estilística, donde un LLM se puede ajustar para responder de una manera más informal, humorística o coherente con la marca. La alineación estilística implica entrenar para los mismos tipos de tareas, pero producir resultados en un estilo específico.
El fine-tuning puramente supervisado enseña a un modelo a imitar ejemplos, pero no necesariamente fomenta un mejor razonamiento, que implica procesos abstractos de varios pasos. Estas tareas no siempre tienen abundantes datos etiquetados, por lo que el aprendizaje por refuerzo se utiliza a menudo en la creación de modelos de razonamiento, LLM que se han ajustado para dividir problemas complejos en pasos más pequeños, a menudo llamados "trazas de razonamiento", antes de generar un resultado. Los medios cada vez más sofisticados de entrenar modelos les proporcionan un razonamiento de cadena de pensamiento y otras estrategias de toma de decisiones de varios pasos.
Otra forma de personalización de LLM es el ajuste de instrucciones, un proceso diseñado específicamente para mejorar la capacidad de un modelo para seguir instrucciones humanas. Las muestras de entrada de un conjunto de datos de instrucciones consisten en su totalidad en tareas que se asemejan a las peticiones que los usuarios podrían hacer en sus instrucciones; los resultados demuestran las respuestas deseables a esas peticiones. Dado que los LLM preentrenados no están inherentemente optimizados para seguir instrucciones u objetivos conversacionales, el ajuste de instrucciones se utiliza para alinear mejor el modelo con la intención del usuario.
Una vez entrenados, los modelos de lenguaje de gran tamaño funcionan respondiendo a las instrucciones tokenizando la instrucción, convirtiéndola en embeddings y utilizando su transformador para generar texto token a token, calculando las probabilidades de todos los tokens siguientes potenciales y emitiendo el resultado más probable. Este proceso, llamado inferencia, se repite hasta que el resultado está completo. El modelo no "conoce" la respuesta final de antemano; utiliza todas las relaciones estadísticas que aprendió en el entrenamiento para predecir un token a la vez, haciendo su mejor conjetura en cada paso.
La forma más fácil y rápida de obtener conocimientos específicos de un dominio de un LLM de uso general es a través del prompt engineering, que no requiere entrenamiento adicional. Los usuarios pueden modificar las instrucciones de todo tipo de formas. Por ejemplo, una instrucción como "responda con la voz de un profesional sanitario capacitado" podría arrojar resultados más relevantes (¡tenga en cuenta que no se recomienda el uso de LLM para asesoramiento médico!).
Los LLM tienen otras estrategias para controlar sus resultados, como la temperatura de LLM, que controla la aleatoriedad del texto generado por los LLM durante la inferencia, o el muestreo top-k/top-p, que limita el conjunto de tokens considerados a los más probables, equilibrando la creatividad y la coherencia.
La ventana de contexto es el número máximo de tokens que un modelo puede "ver" y utilizar a la vez al generar texto. Los primeros LLM tenían ventanas cortas, pero los LLM más nuevos tienen cientos de miles de tokens en sus ventanas de contexto, lo que permite casos de uso como resumir documentos de investigación completos, realizar asistencia de código en grandes bases de código y mantener conversaciones continuas largas con los usuarios.
La generación aumentada por recuperación (RAG) es un método para conectar un modelo preentrenado con bases de conocimiento externas, lo que les permite ofrecer respuestas más relevantes con un mayor nivel de precisión. La información recuperada se pasa a la ventana de contexto del modelo, por lo que el modelo puede utilizarla al generar respuestas, sin necesidad de volver a entrenar. Por ejemplo, al conectar un LLM a una base de datos de servicios meteorológicos dinámicos, un LLM puede recuperar información para un usuario sobre el informe meteorológico de ese día.
Crear un LLM desde cero es un proceso complejo y que requiere muchos recursos. Los LLM más populares son el resultado de inmensas cantidades de datos, GPU, energía y experiencia humana, por lo que la mayoría son creados y mantenidos por grandes empresas tecnológicas con amplios recursos.
Sin embargo, muchos de estos modelos son accesibles para todos los desarrolladores a través de API. Los desarrolladores pueden utilizar modelos preentrenados para crear chatbots, sistemas de recuperación de conocimientos, herramientas de automatización y mucho más. Para un mayor control sobre los datos y la personalización, muchos modelos de código abierto se pueden implementar localmente o en la nube. Github, Hugging Face, Kaggle y otras plataformas hacen que el desarrollo de la IA sea accesible para todos.
Los desarrolladores pueden utilizar los LLM como base para todo tipo de aplicaciones de IA. Uno de los desarrollos más interesantes de la IA es el sistema agéntico. Los agentes de la IA no sólo piensan; hacen. Por sí mismos, los LLM simplemente generan texto basado en el contexto, pero pueden integrarse con memoria, API, lógica de decisión y otros sistemas externos para realizar tareas específicas, como reservar un vuelo o pilotar un vehículo autónomo.
Los LLM están redefiniendo los procesos empresariales y han demostrado su versatilidad en innumerables casos de uso en muchos sectores.
Generación de texto: los LLM pueden realizar todo tipo de tareas de creación de contenido, como redactar correos electrónicos, entradas de blog o memorandos legales en respuesta a instrucciones.
Resumen de textos: los LLM pueden resumir artículos largos, noticias, informes de investigación, documentación corporativa e historial de clientes en textos completos adaptados al formato de resultado y estilo deseados.
Asistentes de IA: los chatbots impulsados por IA conversacional pueden responder preguntas y proporcionar información detallada como parte de una solución integrada de atención al cliente en tiempo real.
Generación de código: las plataformas de asistencia de código ayudan a los desarrolladores a crear aplicaciones, encontrar errores en el código y descubrir problemas de seguridad en múltiples lenguajes de programación, incluso traduciendo entre ellos.
Análisis de sentimientos: se analiza el tono del cliente para comprender mejor el feedback de los clientes a escala.
Traducción de idiomas: la traducción automatizada proporciona una cobertura más amplia a organizaciones de todos los idiomas y geografías con traducciones fluidas y capacidades multilingües.
Razonamiento: los LLM pueden resolver problemas matemáticos, planificar procesos de varios pasos y explicar conceptos complejos en términos más simples.
Los LLM son herramientas potentes, pero vienen con varias limitaciones. Una de las principales preocupaciones es la precisión. Durante las alucinaciones, el modelo genera información que es falsa o engañosa y que suena plausible. Los LLM también pueden reflejar y amplificar los sesgos presentes en sus datos de entrenamiento, produciendo resultados injustos u ofensivos. Además, sus demandas de recursos son significativas: entrenar y ejecutar LLM requiere grandes cantidades de potencia computacional y energía, lo que plantea problemas tanto de costes como medioambientales.
Los profesionales pueden mitigar estos aspectos negativos de los LLM a través de un gobierno integral de la IA, los procesos, estándares y barreras de seguridad que ayudan a garantizar que los sistemas y herramientas de IA sean seguros y éticos. Una parte clave del gobierno consiste en evaluar los modelos con respecto a los puntos de referencia. Los puntos de referencia de LLM proporcionan puntuaciones cuantitativas, lo que facilita la comparación de modelos. Dado que los LLM son sistemas de propósito general capaces de realizar una amplia variedad de tareas, su evaluación requiere múltiples dimensiones en lugar de un único punto de referencia. Los investigadores y profesionales analizan cualidades como la precisión, la eficiencia, la seguridad, la imparcialidad y la solidez para determinar el rendimiento de un modelo.
Los LLM también se evalúan sobre la base de la alineación y la seguridad, con técnicas como el red-teaming, en la que los evaluadores intentan intencionalmente que el modelo produzca respuestas inseguras o sesgadas para exponer las debilidades. Las evaluaciones de imparcialidad y sesgo pueden ayudar a los profesionales a evitar que los LLM reproduzcan estereotipos dañinos o desinformación.
Los LLM también se suelen evaluar en función de la eficiencia. La velocidad, el consumo de energía, el rendimiento de tokens, la huella y la capacidad de manejar ventanas de contexto largas son algunas de las métricas comunes utilizadas para evaluar la eficiencia con la que los LLM pueden llegar a los resultados.
La historia de los LLM se remonta a los primeros días de la informática y el procesamiento del lenguaje natural, cuando los investigadores utilizaban sistemas basados en reglas y métodos estadísticos para modelar el texto. Estos primeros enfoques podían capturar patrones de palabras locales, pero no entendían las dependencias de largo alcance ni la semántica más profunda.
Un cambio importante se produjo en la década de 2010 con el auge de las redes neuronales, con embeddings de palabras como Word2Vec y GloVe, que representaban las palabras como vectores en un espacio continuo, lo que permitía a los modelos aprender relaciones semánticas. Los modelos secuenciales, como las redes neuronales recurrentes (RNN) y las redes de memoria larga a corto plazo (LSTM), surgieron para manejar mejor los datos secuenciales.
En 2017, Vaswani et al. introdujeron la arquitectura del transformador codificador-decodificador en el histórico documento "Attention Is All You Need".[1] Los transformadores hicieron posible entrenar modelos en grandes conjuntos de datos, lo que marcó el comienzo de la era moderna de LLM. BERT de Google (2018), un transformador solo codificador, demostró el poder de los transformadores para comprender el lenguaje, mientras que la serie de transformadores generativos preentrenados (GPT) de OpenAI, basada en una variante solo de decodificador, mostró cómo el preentrenamiento generativo en texto a escala de internet podría producir una generación de lenguaje notablemente fluida. Casi al mismo tiempo, los modelos de codificador-decodificador como el T5 de Google y el BART de Facebook mostraron los puntos fuertes del diseño completo de secuencia a secuencia para tareas como la traducción y el resumen. GPT-2 (2019) atrajo la atención por su capacidad para generar párrafos coherentes, mientras que GPT-3 (2020), con 175 mil millones de parámetros, consolidó los LLM como una fuerza transformadora en la IA.
Además, las nuevas arquitecturas están desafiando la popularidad de los transformadores en los LLM. Los modelos Mamba funcionan utilizando un modelo de espacio de estados con actualizaciones selectivas que filtran y combinan de manera eficiente la información pasada, lo que le permite capturar dependencias de largo alcance. Los LLM de difusión comienzan con ruido aleatorio y lo eliminan gradualmente paso a paso, guiados por un modelo aprendido, hasta que surge un texto coherente. Ambas arquitecturas pueden ser mucho más eficientes que los transformadores.
Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
1. “Attention is all you need”. Vaswani et al, arXiv. 12 de junio de 2017.