Una lista de modelos de lenguaje de gran tamaño

Autores

Staff Writer

IBM Think

Staff Editor, AI Models

IBM Think

Una lista de modelos de lenguaje de gran tamaño

El auge de la IA generativa ha puesto de relieve la fuerza impulsora detrás de ella: los modelos de lenguaje de gran tamaño (LLM). Ya existe una buena cantidad de LLM, pero con el rápido avance de la tecnología, siguen apareciendo más de estos modelos de inteligencia artificial (IA).

Veamos esto a través de la lente de la industria automotriz. Cientos de fabricantes de automóviles de todo el mundo tienen sus propios modelos que satisfacen las diversas necesidades de los consumidores. Los automóviles también se han transformado con el tiempo, de automóviles a gasolina a vehículos eléctricos con muchas características inteligentes.

Lo mismo ocurre con los LLM. Estos sistemas de IA comenzaron como modelos fundacionales compuestos por múltiples capas de neural networks entrenadas en grandes volúmenes de conjuntos de datos .

Usan técnicas de aprendizaje profundo para realizar tareas de procesamiento de lenguaje natural (NLP) y natural language understanding (NLU). Sin embargo, sus capacidades mejoraron para incluir funciones de IA agéntica y razonamiento.

Esta evolución rápida significa que el escenario de LLM está cambiando constantemente. Los desarrolladores de IA deben actualizar continuamente sus modelos o incluso crear nuevos para mantenerse al día con el rápido progreso.

Si bien las tareas de NLP y NLU, como el resumen de contenido , la traducción automática, el análisis de sentimiento y la generación de texto siguen siendo los pilares, los desarrolladores de IA están adaptando sus modelos a ciertos casos de uso.

Por ejemplo, algunos LLM están diseñados específicamente para la generación de código, mientras que otros están diseñados para gestionar tareas de lenguaje de visión.

Aunque es imposible mencionar todos los LLM que existen, a continuación se ofrece una lista de algunos de los modelos de lenguaje de gran tamaño más actuales y populares para ayudar a las organizaciones a reducir sus opciones y considerar qué modelo satisface sus necesidades:

Claude

Desarrollador: Anthropic

Fecha de lanzamiento: febrero de 2025 para Claude 3.7 Sonnet

Cantidad de parámetros: No divulgada públicamente

Ventana de contexto: 200 000 tokens

Licencia: de propiedad exclusiva

Acceso: Anthropic API, Amazon Bedrock, Google Cloud Vertex AI

Entrada: multimodal (imagen, texto)

Resultado: texto

Claude es una familia de LLM basada en una arquitectura transformadora. Es el modelo grande detrás del asistente de IA conversacional del mismo nombre. El diseño de Claude se guía por los principios constitucionales de la IA, que se centran en la seguridad de la IA para reducir comportamientos dañinos, como el sesgo de la IA.

La familia Claude consta de 3 modelos de IA:

● Claude Haiku

● Claude Sonnet

● Claude Opus

Claude Haiku

Claude 3.5 Haiku es el modelo más rápido. Es ideal para casos de uso de baja latencia, como chatbots de atención al cliente y finalización de código para acelerar los flujos de trabajo de desarrollo de software

Claude Sonnet

Claude 3.7 Sonnet es lo que Anthropic llama su "modelo más inteligente hasta la fecha". Este modelo de razonamiento tiene un modo de "pensamiento extendido", lo que le permite reflexionar antes de responder. Quienes utilizan la API de Anthropic también pueden especificar cuánto tiempo puede pensar el modelo.

Claude 3.7 Sonnet puede implementarse para tareas más específicas, como la generación de código, el uso de computadoras (permitiendo que el LLM use una computadora como lo hace un humano), la extracción de información de datos visuales y la respuesta a preguntas.

Claude Opus

Claude 3 Opus es el modelo más poderoso entre los tres. Puede manejar análisis en profundidad y tareas más largas y complejas con múltiples pasos.

Command

Desarrollador: Cohere

Fecha de lanzamiento: abril de 2024 para Command R+ y diciembre de 2024 para Command R7B

Cantidad de parámetros: hasta 104 000 millones

Ventana de contexto: 128 000 tokens

Licencia: de propiedad exclusiva

Acceso: Cohere API, Amazon Bedrock, Microsoft Azure AI Studio, Oracle Cloud Infrastructure Generative AI

Entrada: texto

Resultado: texto

Command es el modelo de lenguaje insignia de Cohere. Esta familia de LLM centrados en la empresa incluye estos modelos:

● Command R

● Command R+

● Command R7B

Command R

Command R es un modelo de generación de texto multilingüe con 32 000 millones de parámetros.¹ Se ha entrenado para fundamentar su capacidad de generación aumentada por recuperación (RAG) mediante citas en sus respuestas. Command R también ofrece capacidades de uso de herramientas conversacionales.

Command R+

Command R+ es una versión más poderosa con 104 000 millones de parámetros.² Puede gestionar funciones RAG complejas y el uso de herramientas en varios pasos, lo que permite a los agentes de IA recopilar la información más reciente y actualizar su base de conocimientos recurriendo a herramientas externas.

Command R7B

Command R7B es el modelo más pequeño y rápido con 7000 millones de parámetros. Es ideal para despliegues basadas en CPU,GPU de gama baja y otros dispositivos edge, y se puede implementar para inferencia en el dispositivo.

DeepSeek-R1

Desarrollador: DeepSeek

Fecha de lanzamiento: enero de 2025

Cantidad de parámetros: 671 000 millones

Ventana de contexto: 128 000 tokens

Licencia: código abierto (licencia MIT)

Acceso: DeepSeek API, Hugging Face

Entrada: texto

Salida: texto

DeepSeek-R1 es un modelo de razonamiento de código abierto de la startup china de IA DeepSeek. Usa una Mixture of Experts (MoE) arquitectura de machine learning y se entrenó mediante el aprendizaje por refuerzo a gran escala para refinar sus habilidades de razonamiento.

El rendimiento de DeepSeek-R1 es similar o incluso mejor que la serie o1 de modelos de razonamiento de OpenAI en ciertos puntos de referencia de LLM. DeepSeek-R1 también utilizó la destilación de conocimientos para ajustar varios modelos Llama y Qwen más pequeños mediante los datos de razonamiento generados por el LLM mucho más grande de DeepSeek-R1.

Los modelos destilados resultantes mejoraron las capacidades de razonamiento de sus homólogos originales e incluso mejoraron el rendimiento con respecto a otros modelos más grandes.³

Falcon

Desarrollador: Technology Innovation Institute

Fecha de lanzamiento: diciembre de 2024 para Falcon 3

Cantidad de parámetros: hasta 180 000 millones

Ventana de contexto: hasta 32 000 tokens

Licencia: código abierto

Acceso: Hugging Face

Entrada: texto

Resultado: texto

Falcon es un grupo de modelos de código abierto desarrollados por investigadores del Technology Innovation Institute (TII) de los EAU. Estos modelos se entrenaron en RefinedWeb de TII , un enorme conjunto de datos que contiene datos web en inglés filtrados.

Falcon consta de estos LLM:

● Falcon 2

● Falcon 3

● Falcon Mamba 7B

Otras versiones anteriores y más grandes de Falcon incluyen Falcon 40B con 40 000 millones de parámetros y Falcon 180B con 180 000 millones de parámetros.

Falcon 2

Falcon 2 11B es un modelo causal solo de decodificador con 11 000 millones de parámetros. Ofrece soporte multilingüe y pronto contará con capacidades de visión a lenguaje.

Falcon 3

Falcon 3 adopta un diseño de solo decodificador y viene en tamaños de parámetros ligeros de 1000, 3000, 7000 y 10 000 millones. Mejora su predecesor, mejorando sus capacidades de razonamiento.

Falcon Mamba 7B

Falcon Mamba 7B es un modelo de lenguaje de espacio de estados (SSLM), que se desvía de la típica arquitectura transformadora. Los modelos de transformadores usan un mecanismo de atención para "centrar su atención" en los tokens más importantes de la entrada. Sin embargo, a medida que crece la ventana de contexto, los transformadores requieren más memoria y potencia de cálculo.

Los SSLM actualizan continuamente un "estado" durante el procesamiento y usan un algoritmo de selección para ajustar los parámetros dinámicamente de acuerdo con la entrada. Esto permite a Falcon Mamba 7B procesar largas secuencias de texto sin necesidad de memoria adicional y generar nuevos tokens en la misma cantidad de tiempo, independientemente de la longitud del contexto.

Gemini

Desarrollador: Google DeepMind

Fecha de lanzamiento: diciembre de 2024

Cantidad de parámetros: no divulgada públicamente

Ventana de contexto: 1 millón de tokens

Licencia: de propiedad exclusiva

Acceso: Gemini API, Google AI Studio, Google Cloud Vertex AI

Entrada: multimodal (audio, imagen, texto, video)

Resultado: texto

Gemini es la suite de modelos multimodales de Google. También impulsa el chatbot de IA generativa (anteriormente conocido como Bard) del mismo nombre.

Gemini usa un modelo de transformador, una arquitectura de neural networks que se originó en el propio Google, y se basa en los modelos fundacionales de lenguaje anteriores de la compañía, incluyendo BERT (representaciones de codificador bidireccional de transformadores) y PaLM 2 (modelo de lenguaje de rutas).

La última versión, Gemini 2.0, está "creada para la era agéntica", según Google. Gemini 2.0 viene en varias variantes:

● Gemini 2.0 Flash

● Gemini 2.0 Flash-Lite

● Gemini 2.0 Pro

Gemini 2.0 Flash

Gemini 2.0 Flash es un modelo ligero compatible con el uso de herramientas. Próximamente se incorporarán características como generación de imágenes y text to speech.

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash-Lite es una versión mejorada del anterior Flash 1.5, ligera y rentable. Mantiene la misma velocidad y costo al tiempo que mejora la calidad.

Gemini 2.0 Pro

Gemini 2.0 Pro es lo que Google llama su modelo más sólido para programar y abordar instrucciones complejas debido a sus capacidades de uso de herramientas y su ventana de contexto más larga a 2 millones de tokens. Todavía está en la fase experimental.

GPT

Desarrollador: OpenAI

Fecha de lanzamiento: mayo de 2024 para GPT-4o y julio de 2024 para GPT-4o mini

Cantidad de parámetros: no divulgada públicamente

Ventana de contexto: 128 000 tokens

Licencia: de propiedad exclusiva

Acceso: OpenAI API using .NET, JavaScript, Python, TypeScript

Entrada: multimodal (audio, imagen, texto, video)

Resultado: multimodal (audio, imagen, texto)

Los transformadores generativos preentrenados (GPT) son una línea de modelos de lenguaje de gran tamaño desarrollados por OpenAI. GPT incluye estos LLM:

● GPT-4o

● GPT-4o mini

GPT-4o

GPT-4o es un modelo multilingüe y multimodal. Como uno de los LLM más avanzados, GPT-4o es capaz de procesar audio, texto y entradas visuales y producir cualquier combinación de salidas de audio, imagen y texto.

Ha mejorado el rendimiento con respecto a sus predecesores GPT-4 Turbo y GPT-4. GPT-4o es el LLM actual que impulsa el chatbot de IA generativa ChatGPT de OpenAI.

GPT-4o mini

GPT-4o mini es un modelo más pequeño y asequible que acepta entradas de imágenes y texto y genera salidas de texto. Ha superado a GPT-3.5 Turbo en cuanto a rendimiento.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think.

Granite

Desarrollador: IBM®

Fecha de lanzamiento: febrero de 2025

Cantidad de parámetros: hasta 34 000 millones

Ventana de contexto: 128 000 tokens

Licencia: código abierto (Apache 2.0)

Acceso: IBM® watsonx.ai®, Hugging Face, LM Studio, Ollama, Replicate

Entrada: multimodal (imagen, texto)

Resultado: texto

IBM Granite es una serie de LLM de código abierto y listos para la empresa. Incluye estos modelos:

● Granite 3.2

● Granite Vision

Granite 3.2

Granite 3.2 incorpora capacidades de razonamiento mejoradas y características avanzadas para tareas RAG. Viene en 2000 y 8000 millones de tamaños de parámetros.

Los datos de entrenamiento de Granite 3.2 son una combinación de conjuntos de datos de código abierto con licencia permisiva y conjunto de datos sintéticos de alta calidad recopilados internamente y adaptados para resolver problemas de contexto prolongado.

Granite Vision

Granite Vision es un modelo de lenguaje de visión de 2000 millones de parámetros adaptado para la comprensión visual de documentos. Está diseñado para la extracción eficiente de contenido de gráficos, diagramas y tablas, lo que lo hace adecuado para el análisis de datos estructurados.

Otros LLM de la serie Granite se componen de estos modelos especializados:

● Granite Code

● Granite Guardian

● Granite Embedding

Código Granite

Estos modelos de solo decodificador están diseñados para tareas generativas de código, incluida la edición de código, la explicación del código y la generación de código. Los modelos de Granite Code se entrenaron con código escrito en 116 lenguajes de programación y están disponibles en tamaños de 3000, 8000, 20 000 y 34 000 millones de parámetros.

Granite Guardian

Los modelos

Granite Guardian son medidas de seguridad basadas en LLM diseñadas para detectar riesgos en instrucciones y respuestas. Granite Guardian está disponible en 2000, 3000, 5000 y 8000 millones de tamaños de parámetros.

Granite Embedding

Granite Embedding son modelos de transformadores de oración diseñados específicamente para aplicaciones basadas en recuperación como búsqueda semántica y RAG.

Grok

Desarrollador: xAI

Fecha de salida: febrero de 2025 para Grok 3

Cantidad de parámetros: 314 000 millones

Ventana de contexto: 128 000 tokens

Licencia: de propiedad exclusiva

Acceso: API de xAI

Entrada: multimodal (imagen, texto)

Resultado: texto

Grok es un modelo de lenguaje de xAI. El LLM de primera generación, Grok-1, es un modelo MoE con 314 000 millones de parámetros. Debido a su enorme tamaño, solo el 25 % de las ponderaciones del modelo de Grok-1 están activas en un token de entrada determinado.

En marzo de 2024, xAI lanzó Grok-1.5 con una ventana de contexto de 128 000 tokens y capacidades mejoradas de resolución de problemas. Cinco meses después, xAI lanzó las versiones beta de Grok-2 y su versión más pequeña, Grok-2 mini. Grok-2 ha mejorado aún más las capacidades de chat, programación y razonamiento, y agrega compatibilidad para tareas basadas en la visión.

Las últimas versiones, Grok 3 y Grok 3 mini, están equipadas con funciones avanzadas de razonamiento y agente de IA.

Llama

Desarrollador: Meta

Fecha de lanzamiento: diciembre de 2024 para Llama 3.3

Cantidad de parámetros: hasta 405 000 millones

Ventana de contexto: 128 000 tokens

Licencia: código abierto

Acceso: Meta, Hugging Face, Kaggle

Entrada: multimodal (imagen, texto)

Salida: texto

Llama es la colección de LLM de Meta IA. Estos modelos autorregresivos implementan una arquitectura transformadora optimizada, con versiones ajustadas que aplican el ajuste supervisado y el aprendizaje por refuerzo con feedback humano (RLHF).⁵

La colección Llama 3 sucede a los LLM Llama 2 y ofrece estos modelos:

● Llama 3.1

● Llama 3.2

● Llama 3.3

Llama 3.1

Llama 3.1 tiene un modelo de 8000 millones de parámetros y un modelo fundacional insignia de 405 000 millones de parámetros. Ambos son modelos multilingües de solo texto.

Llama 3.2

Llama 3.2 viene en 1000 y 3000 millones de tamaños de parámetros que son lo suficientemente compactos para dispositivos móviles y dispositivos edge. Los tamaños de parámetros de 11 000 y 90 000 millones son LLM multimodales optimizados para responder preguntas generales sobre una imagen, subtítulos, razonamiento de imágenes y visual recognition.⁶

Llama 3.3

Llama 3.3 es un modelo de solo texto multilingüe de 70 000 millones de parámetros. Tiene un rendimiento comparable o incluso mejor que Llama 3.1 405B, pero es más rentable.

Mistral

Desarrollador: Mistral AI

Fecha de lanzamiento: julio de 2024 para Mistral Large 2

Cantidad de parámetros: hasta 124 000 millones

Ventana de contexto: hasta 256 000 tokens

Licencia: Mistral Research License, Mistral Commercial License, Apache 2.0

Acceso: La Plateforme, Amazon Bedrock, Microsoft Azure IA Studio, Google nube Vertex IA, IBM watsonx.ai

Entrada: multimodal (imagen, texto)

Salida: texto

La empresa francesa Mistral AI tiene un conjunto de LLM que abarca estos modelos:

● Mistral Large

● Mistral Small

● Codestral

● Pixtral Large

Mistral Large

Mistral Large 2 es el modelo insignia de Mistral AI. Tiene 123 000 millones de parámetros y una ventana de contexto de 128 000 tokens. Funciona bien en generación de código, matemáticas y razonamiento. Mistral Large 2 ofrece soporte multilingüe y capacidades de llamada de funciones.

Mistral Small

Mistral Small 3 es una versión más compacta con 24 000 millones de parámetros. Este modelo es adecuado para IA conversacional de respuesta rápida, llamadas de funciones de baja latencia y manejo de inferencia localmente en máquinas con recursos limitados. Mistral Small 3 es de código abierto y se libera bajo la licencia Apache 2.0

Codestral

Codestral 25.01 es la última generación del modelo de programación de Mistral IA. Cuenta con una longitud de contexto de 256 000 tokens y admite tareas como la finalización de código, la corrección de código, la generación de código y la generación de pruebas.

Pixtral grande

Pixtral Large es un modelo multimodal de 124 000 millones de parámetros. Está construido sobre Mistral Large 2 y amplía sus capacidades para incluir la comprensión de imágenes.

o1

Desarrollador: OpenAI

Fecha de lanzamiento: septiembre de 2024 para o1, enero de 2025 para o3-mini

Cantidad de parámetros: No divulgada públicamente

Ventana de contexto: hasta 200 000 tokens

Licencia: de propiedad exclusiva

Acceso: OpenAI API

Entrada: multimodal (imagen, texto)

Resultado: texto

La serie o1 de modelos de IA incluye o1 y o1-mini. En comparación con los modelos GPT de OpenAI, los LLM o1 están equipados con capacidades de razonamiento más avanzadas. Tanto o1 como o1-mini fueron entrenados con aprendizaje por refuerzo a gran escala, lo que les permite "pensar" antes de responder. Pueden generar una larga cadena de pensamientos antes de responder.

El o1 LLM acepta tanto entradas de imagen como de texto, mientras que o1-mini solo puede manejar entradas de texto.⁷ En comparación con o1, o1-mini es más pequeño, más rápido y más rentable. También sobresale en el razonamiento y la programación STEM.

Mientras tanto, o3-mini es el último modelo de razonamiento. Al igual que o1-mini, su fortaleza radica en la programación, las matemáticas y la ciencia. Admite llamadas de funciones y ofrece 3 opciones de esfuerzo de razonamiento (bajo, medio y alto) para optimizar para diferentes escenarios, como problemas complejos que necesitan más esfuerzo de razonamiento o problemas más simples que requieren respuestas rápidas y pueden usar menos razonamiento.

AI Academy

Por qué los modelos fundacionales son un cambio de paradigma para la IA

Conozca una nueva clase de modelos de IA flexibles y reutilizables que pueden desbloquear nuevos ingresos, reducir costos y aumentar la productividad, luego use nuestra guía para investigar a profundidad.

Ir al episodio

Qwen

Desarrollador: Alibaba Cloud

Fecha de lanzamiento: septiembre de 2024 para Qwen 2.5 y enero de 2025 para Qwen2.5-Max

Cantidad de parámetros: hasta 72 000 millones

Ventana de contexto: Hasta 1 millón de tokens

Licencia: código abierto (Apache 2.0), patentada para modelos más grandes

Acceso: Alibaba Cloud, Hugging Face

Entrada: multimodal (audio, imagen, texto, video)

Salida: texto

Qwen es una serie de LLM de la empresa china de computación en la nube Alibaba Cloud. Qwen incluye modelos de lenguaje y variantes optimizadas para tareas de audio, programación, matemáticas y visión.

Qwen ofrece estos modelos:

● Qwen 2.5

● Qwen Audio

● Qwen Coder

● Qwen Math

● Qwen VL

Qwen 2.5

Los modelos

Qwen2.5 son de solo decodificadores para tareas de procesamiento de lenguaje multilingüe. Vienen en 500, 3000, 7000, 14 000, 32 000 y 72 000 millones de tamaños de parámetros. Los modelos más grandes, como la variante de 72 000 millones, están disponibles solo a través del acceso API en la plataforma en la nube patentada de Alibaba.

Qwen2.5-Turbo presenta una longitud de contexto más larga de 1 millón de tokens y una velocidad de inferencia más rápida. Mientras tanto, Qwen2.5-Max es el último modelo MoE a gran escala.

Qwen Audio

Qwen 2 Audio está diseñado específicamente para tareas basadas en audio. Este modelo de 7000 millones de parámetros se puede utilizar para transcribir, detectar y clasificar sonidos, manejar comandos de voz e identificar elementos musicales.

Qwen Coder

Qwen2.5 Coder es un LLM específico para código. Está disponible con tamaños de parámetros de 1500, 7000, 1400 y 32 000 millones.

Qwen Math

Qwen 2 Math es una colección de LLM optimizados para matemáticas. Estos modelos son adecuados para el razonamiento matemático avanzado y la resolución de problemas matemáticos complejos. Qwen 2 Math viene en tamaños de parámetros de 1500, 7000 y 72 000 millones.

Qwen VL

Qwen 2 VL es un modelo de visión y lenguaje que combina el procesamiento visual con natural language understanding. Los casos de uso de muestra implican extraer información de datos visuales y generar leyendas y resúmenes para imágenes y videos. Qwen 2 VL está disponible en 2, 7 y 72 000 millones de tamaños de parámetros.

Stable LM

Desarrollador: Stability AI

Fecha de lanzamiento: abril de 2024 para Stable LM 2 12B

Cantidad de parámetros: hasta 12 000 millones

Ventana de contexto: 4096 tokens

Licencia: Stability AI Community License o Enterprise License

Acceso: Stability AI, Hugging Face

Entrada: texto

Resultado: texto

Stable LM es un grupo de modelos de lenguaje de acceso abierto de Stability AI, los creadores del modelo texto-imagen Stable Diffusion. Stable LM 2 12B tiene 12 000 millones de parámetros, mientras que Stable LM 2 1.6B tiene 1600 millones de parámetros. Se trata de LLM solo de descodificador capacitados con datos multilingües y conjuntos de datos de código. Ambos modelos incorporan la llamada de funciones y el uso de herramientas.

Stable Code 3B es otro LLM perfeccionado en conjuntos de datos relacionados con el código. Como modelo ligero con 3000 millones de parámetros, Stable Code 3B se puede ejecutarse en tiempo real en dispositivos, incluso en aquellos sin GPU.

Notas de pie de página

Todos los enlaces son externos a ibm.com

¹ Model Card for C4AI Command R 08-2024, Hugging Face, consultado el 14 de febrero de 2025.

² Model Card for C4AI Command R+ 08-2024, Hugging Face, consultado el 14 de febrero de 2025.

³ DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, GitHub, 23 de enero de 2025.

⁴ Access the latest 2.0 experimental models in the Gemini app, Google, 5 de febrero de 2025.

⁵ Model Information, GitHub, 30 de septiembre de 2024.

⁶ Model Information, GitHub, 30 de septiembre de 2024.

⁷ o1 and o1-mini, OpenAI, consultado el 14 de febrero de 2025.

Cómo elegir el modelo fundacional adecuado

Aprenda a elegir el enfoque correcto para preparar conjuntos de datos e implementar modelos fundacionales.

Una lista de modelos de lenguaje de gran tamaño

Autores

Una lista de modelos de lenguaje de gran tamaño

Claude

Claude Haiku

Claude Sonnet

Claude Opus

Command

Command R

Command R+

Command R7B

DeepSeek-R1

Falcon

Falcon 2

Falcon 3

Falcon Mamba 7B

Gemini

Gemini 2.0 Flash

Gemini 2.0 Flash-Lite

Gemini 2.0 Pro

GPT

GPT-4o

GPT-4o mini

Las últimas novedades e insights sobre IA

Granite

Granite 3.2

Granite Vision

Código Granite

Granite Guardian

Granite Embedding

Grok

Llama

Llama 3.1

Llama 3.2

Llama 3.3

Mistral

Mistral Large

Mistral Small

Codestral

Pixtral grande

o1

Por qué los modelos fundacionales son un cambio de paradigma para la IA

Qwen

Qwen 2.5

Qwen Audio

Qwen Coder

Qwen Math

Qwen VL

Stable LM

Notas de pie de página

Share

Recursos