El auge de la IA generativa ha puesto de relieve la fuerza impulsora detrás de ella: los modelos de lenguaje de gran tamaño (LLM). Ya existe una buena cantidad de LLM, pero con el rápido avance de la tecnología, siguen apareciendo más de estos modelos de inteligencia artificial (IA).
Veamos esto a través de la lente de la industria automotriz. Cientos de fabricantes de automóviles de todo el mundo tienen sus propios modelos que satisfacen las diversas necesidades de los consumidores. Los automóviles también se han transformado con el tiempo, de automóviles a gasolina a vehículos eléctricos con muchas características inteligentes.
Lo mismo ocurre con los LLM. Estos sistemas de IA comenzaron como modelos fundacionales compuestos por múltiples capas de neural networks entrenadas en grandes volúmenes de conjuntos de datos .
Usan técnicas de aprendizaje profundo para realizar tareas de procesamiento de lenguaje natural (NLP) y natural language understanding (NLU). Sin embargo, sus capacidades mejoraron para incluir funciones de IA agéntica y razonamiento.
Esta evolución rápida significa que el escenario de LLM está cambiando constantemente. Los desarrolladores de IA deben actualizar continuamente sus modelos o incluso crear nuevos para mantenerse al día con el rápido progreso.
Si bien las tareas de NLP y NLU, como el resumen de contenido , la traducción automática, el análisis de sentimiento y la generación de texto siguen siendo los pilares, los desarrolladores de IA están adaptando sus modelos a ciertos casos de uso.
Por ejemplo, algunos LLM están diseñados específicamente para la generación de código, mientras que otros están diseñados para gestionar tareas de lenguaje de visión.
Aunque es imposible mencionar todos los LLM que existen, a continuación se ofrece una lista de algunos de los modelos de lenguaje de gran tamaño más actuales y populares para ayudar a las organizaciones a reducir sus opciones y considerar qué modelo satisface sus necesidades:
Desarrollador: Anthropic
Fecha de lanzamiento: febrero de 2025 para Claude 3.7 Sonnet
Cantidad de parámetros: No divulgada públicamente
Ventana de contexto: 200 000 tokens
Licencia: de propiedad exclusiva
Acceso: Anthropic API, Amazon Bedrock, Google Cloud Vertex AI
Entrada: multimodal (imagen, texto)
Resultado: texto
Claude es una familia de LLM basada en una arquitectura transformadora. Es el modelo grande detrás del asistente de IA conversacional del mismo nombre. El diseño de Claude se guía por los principios constitucionales de la IA, que se centran en la seguridad de la IA para reducir comportamientos dañinos, como el sesgo de la IA.
La familia Claude consta de 3 modelos de IA:
● Claude Haiku
● Claude Sonnet
● Claude Opus
Claude 3.5 Haiku es el modelo más rápido. Es ideal para casos de uso de baja latencia, como chatbots de atención al cliente y finalización de código para acelerar los flujos de trabajo de desarrollo de software
Claude 3.7 Sonnet es lo que Anthropic llama su "modelo más inteligente hasta la fecha". Este modelo de razonamiento tiene un modo de "pensamiento extendido", lo que le permite reflexionar antes de responder. Quienes utilizan la API de Anthropic también pueden especificar cuánto tiempo puede pensar el modelo.
Claude 3.7 Sonnet puede implementarse para tareas más específicas, como la generación de código, el uso de computadoras (permitiendo que el LLM use una computadora como lo hace un humano), la extracción de información de datos visuales y la respuesta a preguntas.
Claude 3 Opus es el modelo más poderoso entre los tres. Puede manejar análisis en profundidad y tareas más largas y complejas con múltiples pasos.
Desarrollador: Cohere
Fecha de lanzamiento: abril de 2024 para Command R+ y diciembre de 2024 para Command R7B
Cantidad de parámetros: hasta 104 000 millones
Ventana de contexto: 128 000 tokens
Licencia: de propiedad exclusiva
Acceso: Cohere API, Amazon Bedrock, Microsoft Azure AI Studio, Oracle Cloud Infrastructure Generative AI
Entrada: texto
Resultado: texto
Command es el modelo de lenguaje insignia de Cohere. Esta familia de LLM centrados en la empresa incluye estos modelos:
● Command R
● Command R+
● Command R7B
Command R es un modelo de generación de texto multilingüe con 32 000 millones de parámetros.1 Se ha entrenado para fundamentar su capacidad de generación aumentada por recuperación (RAG) mediante citas en sus respuestas. Command R también ofrece capacidades de uso de herramientas conversacionales.
Command R+ es una versión más poderosa con 104 000 millones de parámetros.2 Puede gestionar funciones RAG complejas y el uso de herramientas en varios pasos, lo que permite a los agentes de IA recopilar la información más reciente y actualizar su base de conocimientos recurriendo a herramientas externas.
Command R7B es el modelo más pequeño y rápido con 7000 millones de parámetros. Es ideal para despliegues basadas en CPU,GPU de gama baja y otros dispositivos edge, y se puede implementar para inferencia en el dispositivo.
Desarrollador: DeepSeek
Fecha de lanzamiento: enero de 2025
Cantidad de parámetros: 671 000 millones
Ventana de contexto: 128 000 tokens
Licencia: código abierto (licencia MIT)
Acceso: DeepSeek API, Hugging Face
Entrada: texto
Salida: texto
DeepSeek-R1 es un modelo de razonamiento de código abierto de la startup china de IA DeepSeek. Usa una Mixture of Experts (MoE) arquitectura de machine learning y se entrenó mediante el aprendizaje por refuerzo a gran escala para refinar sus habilidades de razonamiento.
El rendimiento de DeepSeek-R1 es similar o incluso mejor que la serie o1 de modelos de razonamiento de OpenAI en ciertos puntos de referencia de LLM. DeepSeek-R1 también utilizó la destilación de conocimientos para ajustar varios modelos Llama y Qwen más pequeños mediante los datos de razonamiento generados por el LLM mucho más grande de DeepSeek-R1.
Los modelos destilados resultantes mejoraron las capacidades de razonamiento de sus homólogos originales e incluso mejoraron el rendimiento con respecto a otros modelos más grandes.3
Desarrollador: Technology Innovation Institute
Fecha de lanzamiento: diciembre de 2024 para Falcon 3
Cantidad de parámetros: hasta 180 000 millones
Ventana de contexto: hasta 32 000 tokens
Licencia: código abierto
Acceso: Hugging Face
Entrada: texto
Resultado: texto
Falcon es un grupo de modelos de código abierto desarrollados por investigadores del Technology Innovation Institute (TII) de los EAU. Estos modelos se entrenaron en RefinedWeb de TII , un enorme conjunto de datos que contiene datos web en inglés filtrados.
Falcon consta de estos LLM:
● Falcon 2
● Falcon 3
● Falcon Mamba 7B
Otras versiones anteriores y más grandes de Falcon incluyen Falcon 40B con 40 000 millones de parámetros y Falcon 180B con 180 000 millones de parámetros.
Falcon 2 11B es un modelo causal solo de decodificador con 11 000 millones de parámetros. Ofrece soporte multilingüe y pronto contará con capacidades de visión a lenguaje.
Falcon 3 adopta un diseño de solo decodificador y viene en tamaños de parámetros ligeros de 1000, 3000, 7000 y 10 000 millones. Mejora su predecesor, mejorando sus capacidades de razonamiento.
Falcon Mamba 7B es un modelo de lenguaje de espacio de estados (SSLM), que se desvía de la típica arquitectura transformadora. Los modelos de transformadores usan un mecanismo de atención para "centrar su atención" en los tokens más importantes de la entrada. Sin embargo, a medida que crece la ventana de contexto, los transformadores requieren más memoria y potencia de cálculo.
Los SSLM actualizan continuamente un "estado" durante el procesamiento y usan un algoritmo de selección para ajustar los parámetros dinámicamente de acuerdo con la entrada. Esto permite a Falcon Mamba 7B procesar largas secuencias de texto sin necesidad de memoria adicional y generar nuevos tokens en la misma cantidad de tiempo, independientemente de la longitud del contexto.
Desarrollador: Google DeepMind
Fecha de lanzamiento: diciembre de 2024
Cantidad de parámetros: no divulgada públicamente
Ventana de contexto: 1 millón de tokens
Licencia: de propiedad exclusiva
Acceso: Gemini API, Google AI Studio, Google Cloud Vertex AI
Entrada: multimodal (audio, imagen, texto, video)
Resultado: texto
Gemini es la suite de modelos multimodales de Google. También impulsa el chatbot de IA generativa (anteriormente conocido como Bard) del mismo nombre.
Gemini usa un modelo de transformador, una arquitectura de neural networks que se originó en el propio Google, y se basa en los modelos fundacionales de lenguaje anteriores de la compañía, incluyendo BERT (representaciones de codificador bidireccional de transformadores) y PaLM 2 (modelo de lenguaje de rutas).
La última versión, Gemini 2.0, está "creada para la era agéntica", según Google. Gemini 2.0 viene en varias variantes:
● Gemini 2.0 Flash
● Gemini 2.0 Flash-Lite
● Gemini 2.0 Pro
Gemini 2.0 Flash es un modelo ligero compatible con el uso de herramientas. Próximamente se incorporarán características como generación de imágenes y text to speech.
Gemini 2.0 Flash-Lite es una versión mejorada del anterior Flash 1.5, ligera y rentable. Mantiene la misma velocidad y costo al tiempo que mejora la calidad.
Gemini 2.0 Pro es lo que Google llama su modelo más sólido para programar y abordar instrucciones complejas debido a sus capacidades de uso de herramientas y su ventana de contexto más larga a 2 millones de tokens. Todavía está en la fase experimental.
Desarrollador: OpenAI
Fecha de lanzamiento: mayo de 2024 para GPT-4o y julio de 2024 para GPT-4o mini
Cantidad de parámetros: no divulgada públicamente
Ventana de contexto: 128 000 tokens
Licencia: de propiedad exclusiva
Acceso: OpenAI API using .NET, JavaScript, Python, TypeScript
Entrada: multimodal (audio, imagen, texto, video)
Resultado: multimodal (audio, imagen, texto)
Los transformadores generativos preentrenados (GPT) son una línea de modelos de lenguaje de gran tamaño desarrollados por OpenAI. GPT incluye estos LLM:
● GPT-4o
● GPT-4o mini
GPT-4o es un modelo multilingüe y multimodal. Como uno de los LLM más avanzados, GPT-4o es capaz de procesar audio, texto y entradas visuales y producir cualquier combinación de salidas de audio, imagen y texto.
Ha mejorado el rendimiento con respecto a sus predecesores GPT-4 Turbo y GPT-4. GPT-4o es el LLM actual que impulsa el chatbot de IA generativa ChatGPT de OpenAI.
GPT-4o mini es un modelo más pequeño y asequible que acepta entradas de imágenes y texto y genera salidas de texto. Ha superado a GPT-3.5 Turbo en cuanto a rendimiento.
Desarrollador: IBM®
Fecha de lanzamiento: febrero de 2025
Cantidad de parámetros: hasta 34 000 millones
Ventana de contexto: 128 000 tokens
Licencia: código abierto (Apache 2.0)
Acceso: IBM® watsonx.ai®, Hugging Face, LM Studio, Ollama, Replicate
Entrada: multimodal (imagen, texto)
Resultado: texto
IBM Granite es una serie de LLM de código abierto y listos para la empresa. Incluye estos modelos:
● Granite 3.2
● Granite Vision
Granite 3.2 incorpora capacidades de razonamiento mejoradas y características avanzadas para tareas RAG. Viene en 2000 y 8000 millones de tamaños de parámetros.
Los datos de entrenamiento de Granite 3.2 son una combinación de conjuntos de datos de código abierto con licencia permisiva y conjunto de datos sintéticos de alta calidad recopilados internamente y adaptados para resolver problemas de contexto prolongado.
Granite Vision es un modelo de lenguaje de visión de 2000 millones de parámetros adaptado para la comprensión visual de documentos. Está diseñado para la extracción eficiente de contenido de gráficos, diagramas y tablas, lo que lo hace adecuado para el análisis de datos estructurados.
Otros LLM de la serie Granite se componen de estos modelos especializados:
● Granite Code
● Granite Guardian
● Granite Embedding
Estos modelos de solo decodificador están diseñados para tareas generativas de código, incluida la edición de código, la explicación del código y la generación de código. Los modelos de Granite Code se entrenaron con código escrito en 116 lenguajes de programación y están disponibles en tamaños de 3000, 8000, 20 000 y 34 000 millones de parámetros.
Granite Guardian son medidas de seguridad basadas en LLM diseñadas para detectar riesgos en instrucciones y respuestas. Granite Guardian está disponible en 2000, 3000, 5000 y 8000 millones de tamaños de parámetros.
Granite Embedding son modelos de transformadores de oración diseñados específicamente para aplicaciones basadas en recuperación como búsqueda semántica y RAG.
Desarrollador: xAI
Fecha de salida: febrero de 2025 para Grok 3
Cantidad de parámetros: 314 000 millones
Ventana de contexto: 128 000 tokens
Licencia: de propiedad exclusiva
Acceso: API de xAI
Entrada: multimodal (imagen, texto)
Resultado: texto
Grok es un modelo de lenguaje de xAI. El LLM de primera generación, Grok-1, es un modelo MoE con 314 000 millones de parámetros. Debido a su enorme tamaño, solo el 25 % de las ponderaciones del modelo de Grok-1 están activas en un token de entrada determinado.
En marzo de 2024, xAI lanzó Grok-1.5 con una ventana de contexto de 128 000 tokens y capacidades mejoradas de resolución de problemas. Cinco meses después, xAI lanzó las versiones beta de Grok-2 y su versión más pequeña, Grok-2 mini. Grok-2 ha mejorado aún más las capacidades de chat, programación y razonamiento, y agrega compatibilidad para tareas basadas en la visión.
Las últimas versiones, Grok 3 y Grok 3 mini, están equipadas con funciones avanzadas de razonamiento y agente de IA.
Desarrollador: Meta
Fecha de lanzamiento: diciembre de 2024 para Llama 3.3
Cantidad de parámetros: hasta 405 000 millones
Ventana de contexto: 128 000 tokens
Licencia: código abierto
Acceso: Meta, Hugging Face, Kaggle
Entrada: multimodal (imagen, texto)
Salida: texto
Llama es la colección de LLM de Meta IA. Estos modelos autorregresivos implementan una arquitectura transformadora optimizada, con versiones ajustadas que aplican el ajuste supervisado y el aprendizaje por refuerzo con feedback humano (RLHF).5
La colección Llama 3 sucede a los LLM Llama 2 y ofrece estos modelos:
● Llama 3.1
● Llama 3.2
● Llama 3.3
Llama 3.1 tiene un modelo de 8000 millones de parámetros y un modelo fundacional insignia de 405 000 millones de parámetros. Ambos son modelos multilingües de solo texto.
Llama 3.2 viene en 1000 y 3000 millones de tamaños de parámetros que son lo suficientemente compactos para dispositivos móviles y dispositivos edge. Los tamaños de parámetros de 11 000 y 90 000 millones son LLM multimodales optimizados para responder preguntas generales sobre una imagen, subtítulos, razonamiento de imágenes y visual recognition.6
Llama 3.3 es un modelo de solo texto multilingüe de 70 000 millones de parámetros. Tiene un rendimiento comparable o incluso mejor que Llama 3.1 405B, pero es más rentable.
Desarrollador: Mistral AI
Fecha de lanzamiento: julio de 2024 para Mistral Large 2
Cantidad de parámetros: hasta 124 000 millones
Ventana de contexto: hasta 256 000 tokens
Licencia: Mistral Research License, Mistral Commercial License, Apache 2.0
Acceso: La Plateforme, Amazon Bedrock, Microsoft Azure IA Studio, Google nube Vertex IA, IBM watsonx.ai
Entrada: multimodal (imagen, texto)
Salida: texto
La empresa francesa Mistral AI tiene un conjunto de LLM que abarca estos modelos:
● Mistral Large
● Mistral Small
● Codestral
● Pixtral Large
Mistral Large 2 es el modelo insignia de Mistral AI. Tiene 123 000 millones de parámetros y una ventana de contexto de 128 000 tokens. Funciona bien en generación de código, matemáticas y razonamiento. Mistral Large 2 ofrece soporte multilingüe y capacidades de llamada de funciones.
Mistral Small 3 es una versión más compacta con 24 000 millones de parámetros. Este modelo es adecuado para IA conversacional de respuesta rápida, llamadas de funciones de baja latencia y manejo de inferencia localmente en máquinas con recursos limitados. Mistral Small 3 es de código abierto y se libera bajo la licencia Apache 2.0
.Codestral 25.01 es la última generación del modelo de programación de Mistral IA. Cuenta con una longitud de contexto de 256 000 tokens y admite tareas como la finalización de código, la corrección de código, la generación de código y la generación de pruebas.
Pixtral Large es un modelo multimodal de 124 000 millones de parámetros. Está construido sobre Mistral Large 2 y amplía sus capacidades para incluir la comprensión de imágenes.
Desarrollador: OpenAI
Fecha de lanzamiento: septiembre de 2024 para o1, enero de 2025 para o3-mini
Cantidad de parámetros: No divulgada públicamente
Ventana de contexto: hasta 200 000 tokens
Licencia: de propiedad exclusiva
Acceso: OpenAI API
Entrada: multimodal (imagen, texto)
Resultado: texto
La serie o1 de modelos de IA incluye o1 y o1-mini. En comparación con los modelos GPT de OpenAI, los LLM o1 están equipados con capacidades de razonamiento más avanzadas. Tanto o1 como o1-mini fueron entrenados con aprendizaje por refuerzo a gran escala, lo que les permite "pensar" antes de responder. Pueden generar una larga cadena de pensamientos antes de responder.
El o1 LLM acepta tanto entradas de imagen como de texto, mientras que o1-mini solo puede manejar entradas de texto.7 En comparación con o1, o1-mini es más pequeño, más rápido y más rentable. También sobresale en el razonamiento y la programación STEM.
Mientras tanto, o3-mini es el último modelo de razonamiento. Al igual que o1-mini, su fortaleza radica en la programación, las matemáticas y la ciencia. Admite llamadas de funciones y ofrece 3 opciones de esfuerzo de razonamiento (bajo, medio y alto) para optimizar para diferentes escenarios, como problemas complejos que necesitan más esfuerzo de razonamiento o problemas más simples que requieren respuestas rápidas y pueden usar menos razonamiento.
Fecha de lanzamiento: septiembre de 2024 para Qwen 2.5 y enero de 2025 para Qwen2.5-Max
Cantidad de parámetros: hasta 72 000 millones
Ventana de contexto: Hasta 1 millón de tokens
Licencia: código abierto (Apache 2.0), patentada para modelos más grandes
Acceso: Alibaba Cloud, Hugging Face
Entrada: multimodal (audio, imagen, texto, video)
Salida: texto
Qwen es una serie de LLM de la empresa china de computación en la nube Alibaba Cloud. Qwen incluye modelos de lenguaje y variantes optimizadas para tareas de audio, programación, matemáticas y visión.
Qwen ofrece estos modelos:
● Qwen 2.5
● Qwen Audio
● Qwen Coder
● Qwen Math
● Qwen VL
Qwen2.5 son de solo decodificadores para tareas de procesamiento de lenguaje multilingüe. Vienen en 500, 3000, 7000, 14 000, 32 000 y 72 000 millones de tamaños de parámetros. Los modelos más grandes, como la variante de 72 000 millones, están disponibles solo a través del acceso API en la plataforma en la nube patentada de Alibaba.
Qwen2.5-Turbo presenta una longitud de contexto más larga de 1 millón de tokens y una velocidad de inferencia más rápida. Mientras tanto, Qwen2.5-Max es el último modelo MoE a gran escala.
Qwen 2 Audio está diseñado específicamente para tareas basadas en audio. Este modelo de 7000 millones de parámetros se puede utilizar para transcribir, detectar y clasificar sonidos, manejar comandos de voz e identificar elementos musicales.
Qwen2.5 Coder es un LLM específico para código. Está disponible con tamaños de parámetros de 1500, 7000, 1400 y 32 000 millones.
Qwen 2 Math es una colección de LLM optimizados para matemáticas. Estos modelos son adecuados para el razonamiento matemático avanzado y la resolución de problemas matemáticos complejos. Qwen 2 Math viene en tamaños de parámetros de 1500, 7000 y 72 000 millones.
Qwen 2 VL es un modelo de visión y lenguaje que combina el procesamiento visual con natural language understanding. Los casos de uso de muestra implican extraer información de datos visuales y generar leyendas y resúmenes para imágenes y videos. Qwen 2 VL está disponible en 2, 7 y 72 000 millones de tamaños de parámetros.
Desarrollador: Stability AI
Fecha de lanzamiento: abril de 2024 para Stable LM 2 12B
Cantidad de parámetros: hasta 12 000 millones
Ventana de contexto: 4096 tokens
Licencia: Stability AI Community License o Enterprise License
Acceso: Stability AI, Hugging Face
Entrada: texto
Resultado: texto
Stable LM es un grupo de modelos de lenguaje de acceso abierto de Stability AI, los creadores del modelo texto-imagen Stable Diffusion. Stable LM 2 12B tiene 12 000 millones de parámetros, mientras que Stable LM 2 1.6B tiene 1600 millones de parámetros. Se trata de LLM solo de descodificador capacitados con datos multilingües y conjuntos de datos de código. Ambos modelos incorporan la llamada de funciones y el uso de herramientas.
Stable Code 3B es otro LLM perfeccionado en conjuntos de datos relacionados con el código. Como modelo ligero con 3000 millones de parámetros, Stable Code 3B se puede ejecutarse en tiempo real en dispositivos, incluso en aquellos sin GPU.
Todos los enlaces son externos a ibm.com
1 Model Card for C4AI Command R 08-2024, Hugging Face, consultado el 14 de febrero de 2025.
2 Model Card for C4AI Command R+ 08-2024, Hugging Face, consultado el 14 de febrero de 2025.
3 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, GitHub, 23 de enero de 2025.
4 Access the latest 2.0 experimental models in the Gemini app, Google, 5 de febrero de 2025.
5 Model Information, GitHub, 30 de septiembre de 2024.
6 Model Information, GitHub, 30 de septiembre de 2024.
7 o1 and o1-mini, OpenAI, consultado el 14 de febrero de 2025.
Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas mediante la incorporación de IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.