¿Qué son los modelos lingüísticos pequeños?

Autores

Rina Diane Caballar

Staff Writer

IBM Think

¿Qué son los modelos de lenguaje pequeño?

Los modelos de lenguaje pequeños (SLM) son modelos de inteligencia artificial (IA) capaces de procesar, comprender y generar contenido de lenguaje natural. Como su nombre lo indica, los SLM son más pequeños en escala y alcance que los modelos de lenguaje grandes (LLM).

En términos de tamaño, los parámetros de SLM oscilan entre unos pocos millones y unos pocos miles de millones, a diferencia de los LLM con cientos de miles de millones o incluso billones de parámetros. Los parámetros son variables internas, como ponderaciones y sesgos, que un modelo aprende durante el entrenamiento. Estos parámetros influyen en el comportamiento y el rendimiento de un modelo de machine learning.

Los modelos de lenguaje pequeño son más compactos y eficientes que sus contrapartes de modelos grandes. Como tales, los SLM requieren menos memoria y potencia computacional, lo que los hace ideales para entornos con recursos limitados, como dispositivos edge y aplicaciones móviles, o incluso para escenarios en los que hay inferencia de IA, cuando un modelo genera una respuesta a la consulta de un usuario, debe realizarse offline sin una red de datos.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Cómo funcionan los modelos de lenguaje pequeño

Los LLM sirven como base para los SLM. Al igual que los modelos de lenguaje grandes, los modelos de lenguaje pequeños emplean una arquitectura basada en redes neuronales conocida como modelo transformador. Los transformadores se han vuelto fundamentales en el procesamiento de lenguaje natural (PLN) y actúan como los bloques de construcción de modelos, como el transformador generativo preentrenado (GPT).

Aquí hay una breve descripción general de la arquitectura transformadora:

  • Los codificadores transforman las secuencias de entrada en representaciones numéricas llamadas incorporaciones, que capturan la semántica y la posición de los tokens en la secuencia de entrada.

  • Un mecanismo de autoatención permite a los transformers "centrar su atención" en los tokens más importantes de la secuencia de entrada, independientemente de su posición.

  • Los decodificadores utilizan este mecanismo de autoatención y las incrustaciones de los codificadores para generar la secuencia de salida estadísticamente más probable.

Compresión del modelo

Las técnicas de compresión de modelos se aplican para construir un modelo más ágil a partir de uno más grande. Comprimir un modelo implica reducir su tamaño sin dejar de conservar la mayor precisión posible. Estos son algunos métodos comunes de compresión de modelos:

  • Poda

  • Cuantización

  • Factorización de bajo rango

  • Destilación de conocimientos

Poda

La poda elimina parámetros menos cruciales, redundantes o innecesarios de una red neuronal. Los parámetros que generalmente se podan incluyen las ponderaciones numéricas correspondientes a las conexiones entre neuronas (en este caso, las ponderaciones se establecerán en 0), las propias neuronas o las capas de una red neuronal.

Los modelos podados a menudo deberán ajustarse luego de la poda para compensar cualquier pérdida de precisión. Y es vital saber cuándo se podaron suficientes parámetros, ya que la poda excesiva puede degradar el rendimiento de un modelo.

Cuantificación

La cuantificación convierte datos de alta precisión en datos de menor precisión. Por ejemplo, las ponderaciones del modelo y los valores de activación (un número entre 0 y 1 asignado a las neuronas en una red neuronal) se pueden representar como enteros de 8 bits en lugar de números de punto flotante de 32 bits. La cuantificación puede aligerar la carga computacional y acelerar la inferencia.

La cuantificación puede incorporarse al entrenamiento del modelo (conocido como entrenamiento consciente de la cuantificación o QAT) o realizarse luego del entrenamiento (llamado cuantificación posterior al entrenamiento o PTQ). El PTQ no requiere tanta potencia computacional y datos de entrenamiento como el QAT, pero el QAT puede producir un modelo más preciso.

Factorización de bajo rango

La factorización de bajo rango descompone una gran matriz de ponderaciones en una matriz más pequeña y de menor rango. Esta aproximación más compacta puede dar como resultado menos parámetros, disminuir el número de cálculos y simplificar operaciones matriciales complejas.

Sin embargo, la factorización de bajo rango puede requerir un gran esfuerzo computacional y ser más difícil de implementar. Al igual que la poda, la red factorizada requerirá un ajuste para recuperar cualquier pérdida de precisión.

Destilación de conocimientos

La destilación de conocimiento implica transferir los aprendizajes de un “modelo didáctico” preentrenado a un “modelo de estudiante”. El modelo del estudiante está entrenado para no solo coincidir con las predicciones del modelo didáctico sino también imitar su proceso subyacente de razonamiento. Como tal, el conocimiento de un modelo más grande se “destila” esencialmente en uno más pequeño.

La destilación de conocimientos es un enfoque popular para muchos SLM. El esquema de destilación fuera de línea se emplea habitualmente, en el que las ponderaciones del modelo didáctico se congelan y no se pueden cambiar durante el proceso de destilación.

AI Academy

Elija el modelo de IA adecuado para su caso de uso

Más grande no siempre es mejor cuando se trata de modelos de IA. Aprenda a encontrar la solución que mejor se adapte a las necesidades de su empresa. A continuación, obtenga la guía que le ayudará a pasar a la acción.

Ejemplos de modelos de lenguaje pequeño

Si bien los modelos más grandes siguen siendo una tecnología elegida por muchas empresas, los modelos más pequeños están ganando terreno rápidamente. Estos son algunos ejemplos de SLM populares:

  • DistilBERT

  • Gemma

  • GPT-4o mini

  • Granite

  • Llama

  • Ministral

  • Phi

DistilBERT

DistilBERT es una versión más ligera del modelo fundacional BERT de Google. Emplea la destilación del conocimiento para hacerlo un 40 % más pequeño y un 60 % más rápido que su predecesor, al tiempo que conserva el 97 % de las capacidades de comprensión del lenguaje natural de BERT.1

Otras versiones reducidas de BERT incluyen el diminuto con 4.4 millones de parámetros, el mini con 11.3 millones de parámetros, el pequeño con 29.1 millones de parámetros y el mediano con 41.7 millones de parámetros.2 Por su parte, MobileBERT está diseñado para dispositivos móviles.3

Gemma

Gemma se elabora y destila a partir de la misma tecnología que Gemini LLM de Google y está disponible en 2, 7 y 9 mil millones de tamaños de parámetros.4 Gemma está disponible a través de Google AI Studio y las plataformas Kaggle y Hugging Face.

Gemini también tiene variantes más ligeras en forma de Gemini 1.5 Flash-8B y Gemini 1.0 Nano, diseñadas para funcionar en dispositivos móviles.5

GPT-4o mini

GPT-4o mini forma parte de la familia de modelos de IA, GPT-4 de OpenAI, que impulsa el chatbot de IA generativa ChatGPT. GPT-4o mini es una variante más pequeña y rentable de GPT-4o. Tiene capacidades multimodales, acepta entradas de texto e imágenes y produce resultados de texto.

Los usuarios de ChatGPT Free, Plus, Team y Enterprise pueden acceder a GPT-4o mini, que reemplaza a GPT-3.5. Los desarrolladores pueden acceder a GPT-4o mini a través de varias interfaces de programación de aplicaciones (API).

Granite

GraniteTM es la serie insignia de IBM de modelos fundacionales de LLM. La colección Granite 3.0 incluye modelos básicos preentrenados y ajustados por instrucciones con 2 y 8 mil millones de parámetros. Granite 3.0 también tiene una combinación de SLM expertos (MoE) para una latencia mínima y una variante optimizada para acelerar la velocidad de inferencia del modelo.

Estos modelos de codigo abierto sobresalen no solo en tareas específicas del lenguaje, sino también en dominios empresariales, como la ciberseguridad, como agentes de IA que emplean llamadas de herramientas o funciones para realizar tareas de forma autónoma, y en tareas de generación aumentada por recuperación (RAG) que implican recuperar datos de una base de conocimientos externa para fundamentar los modelos en la información más precisa y actualizada.

Los modelos Granite 3.0 están disponibles para su uso comercial en productos de la cartera IBM watsonx y a través de Google Vertex AI, Hugging Face, NVIDIA (como microservicios NIM), Ollama y Replicate.

Llama

Llama es la línea de modelos de lenguaje de código abierto de Meta. Llama 3.2 viene en tamaños de 1 y 3 mil millones de parámetros,6 incluso más pequeños que la versión anterior de 7 mil millones de parámetros de Llama 2.7

Las versiones cuantificadas de estos modelos multilingües de solo texto se redujeron a más de la mitad de su tamaño y son de 2 a 3 veces más rápidas.6 Se puede acceder a estos SLM a través de Meta, Hugging Face y Kaggle.

Ministral

Les Ministraux es un grupo de SLM de Mistral AI. Ministral 3B es el modelo más pequeño de la empresa con 3 mil millones de parámetros, mientras que Ministral 8B con 8 mil millones de parámetros es el sucesor de Mistral 7B, 1 de los primeros modelos de IA que Mistral AI lanzó. Se puede acceder a ambos modelos a través de Mistral.8

Ministral 8B supera a Mistral 7B en puntos de referencia que evalúan conocimientos, sentido común, matemáticas y habilidades multilingües. Para una inferencia rápida, Ministral 8B emplea la atención de ventana deslizante, un mecanismo dinámico para centrarse en ciertas "ventanas" de tamaño fijo de secuencias de entrada, lo que permite que los modelos se concentren solo en unas pocas palabras a la vez.8

Fi

Phi es una suite de modelos de lenguaje pequeño de Microsoft. Phi-2 tiene 2.7 mil millones de parámetros, mientras que Phi-3-mini tiene 3.8 mil millones de parámetros.9

Phi-3-mini puede analizar y razonar sobre contenido de texto grande debido a su ventana de contexto larga, que es la cantidad máxima de texto que un modelo puede considerar. Según Microsoft, Phi-3-small, su SLM de 7 mil millones de parámetros, estará disponible en el futuro. Se puede acceder a Phi-3-mini en Microsoft Azure AI Studio, Hugging Face y Ollama.9

Combinación de LLM y SLM

Los avances en el desarrollo de la IA llevaron a enfoques de optimización que maximizan el poder conjunto de los LLM y los SLM:

Patrón de IA híbrida: un modelo de IA híbrido puede tener modelos más pequeños que se ejecuten on-premises y acceden a LLM en la nube pública cuando se requiere un corpus de datos más grande para responder a una instrucción.

Enrutamiento inteligente: el enrutamiento inteligente se puede aplicar para distribuir de manera más eficiente las cargas de trabajo de IA. Se puede crear un módulo de enrutamiento para aceptar consultas, evaluarlas y elegir el modelo más apropiado al cual dirigir las consultas. Los modelos de lenguaje pequeño pueden manejar solicitudes básicas, mientras que los modelos de lenguaje grande pueden abordar solicitudes más complicadas.

Beneficios de los modelos de lenguaje pequeño

Más grande no siempre es mejor, y lo que a los SLM les falta en tamaño lo compensan con estos beneficios:

Accesibilidad: los investigadores, desarrolladores de IA y otras personas pueden explorar y experimentar con modelos de lenguaje sin tener que invertir en múltiples GPU (unidades de procesamiento gráfico) u otros equipos especializados.

Eficiencia: la agilidad de los SLM hace que requieran menos recursos, lo que permite un entrenamiento y un despliegue rápidos.

Rendimiento eficaz: esta eficiencia no se produce a costa del rendimiento. Los modelos pequeños pueden tener un rendimiento comparable o incluso mejor que sus equivalentes de modelos grandes. Por ejemplo, GPT-4o mini supera a GPT-3.5 Turbo en comprensión del lenguaje, respuesta a preguntas, razonamiento, razonamiento matemático y puntos de referencia de LLM de generación de código.10 El rendimiento de GPT-4o mini también está cerca de su hermano mayor, GPT-4o.10

Mayor privacidad y control de seguridad: debido a su menor tamaño, los SLM se pueden desplegar en entornos de computación en la nube on-premises o privados, lo que permite una mejor protección de datos y una mejor gestión y mitigación de las amenazas de ciberseguridad. Esto puede ser especialmente valioso para sectores, como las finanzas o la atención médica, donde tanto la privacidad como la seguridad son primordiales.

Menor latencia: menos parámetros se traducen en menores tiempos de procesamiento, lo que permite a los SLM responder rápidamente. Por ejemplo, Granite 3.0 1B-A400M y Granite 3.0 3B-A800M tienen un recuento total de parámetros de 1000 millones y 3000 millones, respectivamente, mientras que sus recuentos de parámetros activos en la inferencia son 400 millones para el modelo 1B y 800 millones para el modelo 3B. Esto permite que ambos SLM minimicen la latencia y, al mismo tiempo, ofrezcan un alto rendimiento de inferencia.

Más sustentables desde el punto de vista ambiental: debido a que requieren menos recursos computacionales, los modelos de lenguaje pequeño consumen menos energía, lo que reduce su huella de carbono.

Costo reducido: las organizaciones pueden ahorrar en desarrollo, infraestructura y gastos operacionales, como adquirir grandes cantidades de datos de entrenamiento de alta calidad y usar hardware avanzado, que de otro modo serían necesarios para ejecutar modelos masivos.

Limitaciones de los modelos de lenguaje pequeño

Al igual que los LLM, los SLM aún tienen que lidiar con los riesgos de la IA. Esta es una consideración para las empresas que buscan integrar modelos de lenguaje pequeño en sus flujos de trabajo internos o implementarlos comercialmente para aplicaciones específicas.

Sesgo: los modelos más pequeños pueden aprender del sesgo presente en sus contrapartes más grandes, y este efecto dominó puede manifestarse en sus resultados.

Disminución del rendimiento en tareas complejas: debido a que los SLM suelen estar ajustados en tareas específicas, pueden ser menos competentes en tareas complejas que requieren conocimientos en un amplio espectro de temas. Por ejemplo, Microsoft señala que sus "modelos Phi-3 no funcionan tan bien en los puntos de referencia de conocimiento fáctico, ya que el tamaño más pequeño del modelo da como resultado una menor capacidad para retener los hechos".9

Generalización limitada: los modelos de lenguaje pequeños carecen de la amplia base de conocimientos de sus equivalentes expansivos, por lo que podrían ser más adecuados para tareas de lenguaje específicas.

Alucinaciones: validar los resultados de los SLM es vital para asegurarse de que lo que producen sea objetivamente correcto.

Casos de uso de modelos de lenguaje pequeño

Las empresas pueden ajustar los SLM en conjuntos de datos específicos de dominio para personalizarlos según sus necesidades específicas. Esta adaptabilidad significa que se pueden emplear modelos de lenguaje pequeños para una variedad de aplicaciones del mundo real:

Chatbots: debido a su baja latencia y capacidades de IA conversacional, los SLM pueden potenciar los chatbots de atención al cliente, respondiendo rápidamente a las consultas en tiempo real. También pueden servir como columna vertebral para los chatbots de IA agentiva que van más allá de proporcionar respuestas para completar tareas en nombre de un usuario.

Resumen de contenido: los modelos Llama 3.2 1B y 3B, por ejemplo, se pueden usar para resumir debates en un teléfono inteligente y crear elementos de acción, como eventos de calendario.6 Del mismo modo, Gemini Nano puede resumir grabaciones de audio y transcripciones de conversaciones.11

IA generativa: se pueden implementar modelos compactos para completar y generar texto y código de software. Por ejemplo, los modelos granite-3b-code-instruct y granite-8b-code-instruct se pueden utilizar para generar, explicar y traducir código a partir de una instrucción de lenguaje natural.

Traducción de idiomas: muchos modelos de idiomas pequeños son multilingües y se han entrenado en idiomas distintos del inglés, por lo que pueden traducir entre idiomas rápidamente. Debido a su capacidad para comprender el contexto, pueden producir traducciones casi precisas que conservan los matices y el significado del texto original.

Mantenimiento predictivo: los modelos Lean son lo suficientemente pequeños como para desplegarse directamente en dispositivos edge locales, como sensores o dispositivos de Internet de las cosas (IoT). Esto significa que los fabricantes pueden tratar los SLM como herramientas que recopilan datos de sensores instalados en maquinaria y equipamiento y analizar esos datos en tiempo real para predecir las necesidades de mantenimiento.

Análisis de sentimientos: además de procesar y comprender el lenguaje, los SLM también tienen la habilidad de ordenar y clasificar grandes volúmenes de texto de manera objetiva. Esto los hace adecuados para analizar texto y medir el sentimiento detrás de él, lo que ayuda a comprender el feedback de los clientes.

Asistencia de navegación del vehículo: un modelo tan rápido y compacto como un SLM puede ejecutarse en las computadoras a bordo de un vehículo. Debido a sus capacidades multimodales, los modelos de lenguaje pequeños pueden combinar comandos de voz con clasificación de imágenes, por ejemplo, para identificar obstáculos alrededor de un vehículo. Incluso pueden aprovechar sus capacidades, recuperando detalles de los códigos de circulación o las normas viales para ayudar a los controladores a tomar decisiones de conducción más seguras e informadas.

Soluciones relacionadas
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM watsonx en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai Explorar los modelos de IA de IBM Granite
Notas de pie de página

Todos los enlaces se encuentran fuera de ibm.com

1 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, arXiv, 1 de marzo de 2020

2 Well-Read Students Learn Better: On the Importance of Pre-training Compact Models, arXiv, 25 de septiembre de 2019

3 MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices, arXiv, 14 de abril de 2020

4 Gemma explained: An overview of Gemma model family architectures, Google for Developers, 15 de agosto de 2024

5 Gemini Models, Google DeepMind, consultado el 17 de octubre de 2024

6 Introducing Llama 3.2, Meta, consultado el 17 de octubre de 2024

7 Meta and Microsoft Introduce the Next Generation of Llama, Meta, 18 de julio de 2023

8 Un Ministral, des Ministraux, Mistral AI, 16 de octubre de 2024

14 Introducing Phi-3: Redefining what’s possible with SLMs, Microsoft, 23 de abril 2024

10 GPT-4o mini: advancing cost-efficient intelligence, OpenAI, 18 de julio de 2024

11 Gemini Nano, Google DeepMind, consultado el 21 de octubre de 2024