Una lista de modelos de lenguaje de gran tamaño

Autores

Staff Writer

IBM Think

Staff Editor, AI Models

IBM Think

Una lista de modelos de lenguaje de gran tamaño

El auge de la IA generativa ha puesto de relieve la fuerza impulsora detrás de ella: los modelos de lenguaje de gran tamaño (LLM). Ya existen docenas de LLM, pero con el rápido avance de la tecnología, siguen apareciendo más de estos modelos de inteligencia artificial (IA).

Piénselo desde la perspectiva del sector automovilístico. Cientos de fabricantes de coches de todo el mundo tienen modelos distintos para satisfacer las necesidades de los consumidores. Los coches también han evolucionado con el tiempo, desde los que funcionan con gasolina hasta los eléctricos, con muchas características inteligentes.

Lo mismo ocurre con los LLM. Estos sistemas de IA comenzaron como modelos fundacionales compuestos por múltiples capas de redes neuronales entrenadas en grandes volúmenes de conjuntos de datos.

Emplean técnicas de deep learning para realizar tareas de procesamiento del lenguaje natural (PLN) y comprensión del lenguaje natural. Sin embargo, sus capacidades han mejorado para incluir funciones y razonamiento de IA agentiva.

Esta rápida evolución significa que el panorama de la IA cambia constantemente. Los desarrolladores de IA deben actualizar continuamente sus modelos o incluso construir otros nuevos para mantenerse al día de los rápidos avances.

Aunque las tareas de PLN y CLN, como el resumen de contenidos , la traducción automática, el análisis de sentimientos y la generación de texto, siguen siendo pilares fundamentales, los desarrolladores de IA están adaptando sus modelos a determinados casos de uso.

Por ejemplo, algunos LLM están diseñados específicamente para la generación de código, mientras que otros están hechos para manejar tareas de lenguaje de visión.

Aunque es imposible mencionar todos los LLM que existen, aquí hay una lista de algunos de los modelos de lenguaje de gran tamaño más actuales y populares para ayudar a las organizaciones a reducir sus opciones y considerar qué modelo se adapta mejor a sus necesidades:

Claude

Desarrollador: Anthropic

Fecha de lanzamiento: febrero de 2025 para Claude 3.7 Sonnet

Número de parámetros: No divulgado públicamente

Ventana de contexto: 200 000 tokens

Licencia: Propietario

Acceso: API de Anthropic, Amazon Bedrock, Google Cloud Vertex AI

Entrada: multimodal (imagen, texto)

Output: Texto

Claude es una familia de LLM basada en una arquitectura del transformador. Es el modelo de gran tamaño detrás del asistente de IA conversacional del mismo nombre. El diseño de Claude se guía por los principios constitucionales de la IA, que se centran en la seguridad de la IA para reducir comportamientos nocivos como el sesgo de la IA.

La familia Claude consta de 3 modelos de IA:

● Claude Haiku

● Claude Sonnet

● Claude Opus

Claude Haiku

El Claude 3.5 Haiku es el modelo más rápido. Es ideal para casos de uso de baja latencia, como los chatbots de atención al cliente y la finalización de códigos, para acelerar los flujos de trabajo de desarrollo de software.

Claude Sonnet

Claude 3.7 Sonnet es lo que Anthropic llama su "modelo más inteligente hasta la fecha". Este modelo de razonamiento tiene un modo de "pensamiento extendido", lo que le permite reflexionar sobre sí mismo antes de responder. Aquellos que utilizan la API de Anthropic también pueden especificar durante cuánto tiempo puede pensar el modelo.

Claude 3.7 Sonnet se puede implementar para tareas más específicas, como generación de código, uso de ordenadores (lo que permite al LLM usar un ordenador tal y como lo hace un humano), extracción de información de datos visuales y respuesta a preguntas.

Claude Opus

Claude 3 Opus es el modelo más potente de los tres. Puede gestionar análisis en profundidad y tareas más largas y complejas con varios pasos.

Command

Desarrollador: Cohere

Fecha de lanzamiento: abril de 2024 para Command R+ y diciembre de 2024 para Command R7B

Número de parámetros: hasta 104 mil millones

Ventana de contexto: 128 000 tokens

Licencia: Propietario

Accesso: Cohere API, Amazon Bedrock, Microsoft Azure AI Studio, Oracle Cloud Infrastructure Generative AI

Entrada: texto

Output: Texto

Command es el modelo de lenguaje insignia de Cohere. Esta familia de LLM centrados en la empresa incluye estos modelos:

● Command R

● Command R+

● Comand R7B

Command R

Command R es un modelo de generación de texto multilingüe con 32 mil millones de parámetros.¹ Ha sido entrenado para fundamentar su capacidad de generación aumentada por recuperación (RAG) mediante la aportación de citas en sus respuestas. La función Command R también ofrece capacidades de uso de herramientas conversacionales.

Command R+

Command R+ es una versión más potente, con 104 000 millones de parámetros.² Puede gestionar funciones RAG complejas y el uso de herramientas de varios pasos, lo que permite a los agentes de IA recopilar la información más reciente y actualizar su base de conocimientos mediante herramientas externas

Command R7B

Command R7B es el modelo más pequeño y rápido con 7 mil millones de parámetros. Es ideal para implementaciones basadas en CPU, GPU de gama baja y otros dispositivos edge y puede implementarse para la inferencia en el dispositivo.

DeepSeek-R1

Desarrollador: DeepSeek

Fecha de lanzamiento: enero de 2025

Número de parámetros: 671 mil millones

Ventana de contexto: 128 000 tokens

Licencia: código abierto (licencia MIT)

Acceso: API DeepSeek, Hugging Face

Entrada: texto

Output: texto

DeepSeek-R1 es un modelo de razonamiento de código abierto de la startup china de IA DeepSeek. Utiliza una arquitectura de machine learning de Mixture of Experts (MoE) y fue entrenado mediante aprendizaje por refuerzo a gran escala para perfeccionar sus capacidades de razonamiento.

El rendimiento de DeepSeek-R1 es similar o incluso mejor que la serie o1 de modelos de razonamiento de OpenAI en determinadas referencias de LLM. DeepSeek-R1 también utilizó la destilación de conocimientos para afinar varios modelos Llama y Qwen más pequeños utilizando los datos de razonamiento generados por el mucho más grande DeepSeek-R1 LLM.

Los modelos destilados resultantes mejoraron las capacidades de razonamiento de sus homólogos originales e incluso mejoraron el rendimiento con respecto a otros modelos más grandes.³

Falcon

Desarrollador: Technology Innovation Institute

Fecha de lanzamiento: diciembre de 2024 para Falcon 3

Número de parámetros: hasta 180 mil millones

Ventana de contexto: hasta 32 000 tokens

Licencia: código abierto

Access: Hugging Face

Entrada: texto

Output: Texto

Falcon es un grupo de modelos de código abierto desarrollados por investigadores del Instituto de Innovación Tecnológica (TII) de los Emiratos Árabes Unidos. Estos modelos se entrenaron en la propia RefinedWeb de TII, un enorme conjunto de datos que contiene datos web en inglés filtrados.

Falcon consta de estos LLM:

● Falcon 2

● Falcon 3

● Falcon Mamba 7B

Otras versiones anteriores y más grandes de Falcon incluyen el Falcon 40B con 40 mil millones de parámetros y el Falcon 180B con 180 mil millones de parámetros.

Falcon 2

Falcon 2 11B es un modelo de decodificador único causal con 11 000 millones de parámetros. Ofrece soporte multilingüe y pronto contará con capacidades de traducción de voz.

Falcon 3

Falcon 3 adopta un diseño de decodificador único y se presenta en tamaños de parámetros ligeros de 1, 3, 7 y 10 mil millones. Mejora a su predecesor y aumenta sus capacidades de razonamiento.

Falcon Mamba 7B

Falcon Mamba 7B es un modelo de lenguaje de espacio de estados (SSLM), que se desvía de la típica arquitectura del transformador. Los modelos transformadores utilizan un mecanismo de atención para "centrar su atención" en el token más importante de la entrada. Sin embargo, a medida que crece la ventana de contexto, los transformadores requieren más memoria y potencia de cálculo.

Los SSLM actualizan continuamente un "estado" durante el procesamiento y emplean un algoritmo de selección para ajustar los parámetros dinámicamente según la entrada. Esto permite a Falcon Mamba 7B procesar largas secuencias de texto sin necesidad de memoria adicional y generar nuevos tokens en la misma cantidad de tiempo, independientemente de la longitud del contexto.

Gemini

Desarrollador: Google DeepMind

Fecha de lanzamiento: diciembre 2024

Número de parámetros: no divulgados públicamente

Ventana de contexto: 1 millón de tokens

Licencia: Propietario

Acceso: API Gemini, Google IA Studio, Google nube Vertex IA

Entrada: multimodal (audio, imagen, texto, vídeo)

Output: Texto

Gemini es el conjunto de modelos multimodales de Google. También impulsa el chatbot de IA generativa (anteriormente conocido como Bard) del mismo nombre.

Gemini emplea un modelo de transformador, una arquitectura de redes neuronales que se originó en el propio Google, y se basa en los modelos de lenguaje fundamentales anteriores de la empresa, incluidos BERT (representaciones de codificador bidireccional de transformadores) y PaLM 2 (modelo de lenguaje de rutas).

La última versión, Gemini 2.0, está "hecha para la era agentiva", según Google. Gemini 2.0 viene en varias variantes:

● Gemini 2.0 Flash

● Gemini 2.0 Flash-Lite

● Gemini 2.0 Pro

Gemini 2.0 Flash

Gemini 2.0 Flash es un modelo ligero compatible con el uso de herramientas. Próximamente se incluirán otras funciones, como la generación de imágenes y la conversión de texto a voz.

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash-Lite es una versión mejorada del anterior 1.5 Flash, ligero y rentable. Mantiene la misma velocidad y coste al tiempo que mejora la calidad.

Gemini 2.0 Pro

Gemini 2.0 Pro es lo que Google llama su modelo más sólido para codificar y abordar instrucciones complejas debido a sus capacidades de uso de herramientas y su ventana de contexto más larga a 2 millones de tokens. Todavía está en fase experimental.

GPT

Desarrollador: OpenAI

Fecha de lanzamiento: mayo de 2024 para GPT-4o y julio de 2024 para GPT-4o mini

Número de parámetros: no divulgados públicamente

Ventana de contexto: 128 000 tokens

Licencia: propietaria

Acceso: API de OpenAI mediante .NET, JavaScript, Python, TypeScript

Entrada: multimodal (audio, imagen, texto, vídeo)

Output: multimodal (audio, imagen, texto)

Los transformadores generativos preentrenados (GPT) son una línea de grandes modelos de lenguaje desarrollados por OpenAI. GPT incluye estos LLM:

● GPT-4o

● GPT-4o mini

GPT-4o

GPT-4o es un modelo multilingüe y multimodal. Como uno de los LLM más avanzados, GPT-4o es capaz de procesar entradas de audio, texto y visuales y producir cualquier combinación de salidas de audio, imagen y texto.

Ha mejorado el rendimiento con respecto a sus predecesores GPT-4 Turbo y GPT-4. GPT-4o es el LLM actual que impulsa el chatbot de IA ChatGPT de OpenAI.

GPT-4o mini

GPT-4o mini es un modelo más pequeño y asequible que acepta entradas de imágenes y texto y genera salidas de texto. Ha superado a GPT-3.5 Turbo en términos de rendimiento.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA  

Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think.

Granite

Desarrollador: IBM

Fecha de lanzamiento: febrero de 2025

Número de parámetros: hasta 34 mil millones

Ventana de contexto: 128 000 tokens

Licencia: código abierto (Apache 2.0)

Acceso: IBM watsonx.ai, Hugging Face, LM Studio, Ollama, Replicate

Entrada: multimodal (imagen, texto)

Output: Texto

IBM Granite es una serie de LLM de código abierto y preparados para uso empresarial. Incluye estos modelos:

● Granite 3.2

● Granite Vision

Granite 3.2

Granite 3.2 incorpora capacidades de razonamiento mejoradas y características avanzadas para las tareas de RAG. Viene en formatos de 2 y 8 mil millones de tamaños de parámetros.

Los datos de entrenamiento de Granite 3.2 son una mezcla de conjuntos de datos de código abierto con licencia permisiva y conjuntos de datos sintéticos de alta calidad recopilados internamente y adaptados para resolver problemas de contexto largo.

Granite Vision

Granite Vision es un modelo de lenguaje de visión de 2 mil millones de parámetros adaptado para la comprensión visual de documentos. Está diseñado para la extracción eficiente de contenido de gráficos, diagramas y tablas, lo que lo hace adecuado para el análisis de datos estructurados.

Otros LLM de la serie Granite constan de estos modelos especializados:

● Granite Code

● Granite Guardian

● Granite Embedding

Granite Code

Estos modelos solo decodificadores están diseñados para tareas de generación de código, como la edición de código, la explicación de código y la generación de código. Los modelos Granite Code se entrenaron con código escrito en 116 lenguajes de programación y están disponibles en tamaños de 3, 8, 20 y 34 mil millones de parámetros.

Granite Guardian

Los modelos Granite Guardian son barreras basadas en LLM, diseñadas para detectar riesgos en instrucciones y respuestas. Granite Guardian está disponible en tamaños de parámetros de 2, 3, 5 y 8 mil millones.

Granite Embedding

Los modelos Granite Embedding son modelos de transformadores de frases diseñados específicamente para aplicaciones basadas en la recuperación, como la búsqueda semántica y el RAG.

Grok

Desarrollador: xAI

Fecha de lanzamiento: febrero de 2025 para Grok 3

Número de parámetros: 314 mil millones

Ventana de contexto: 128 000 tokens

Licencia: Propietario

Acceso: API de xAI

Entrada: multimodal (imagen, texto)

Output: Texto

Grok es un modelo de lenguaje de xAI. El LLM de primera generación, Grok-1, es un modelo MoE con 314 mil millones de parámetros. Debido a su enorme tamaño, solo el 25 % de las ponderaciones del modelo de Grok-1 están activas en un token de entrada determinado.

En marzo de 2024, xAI lanzó Grok-1.5 con una ventana de contexto de 128 000 tokens y capacidades mejoradas de resolución de problemas. Cinco meses después, xAI lanzó las versiones beta de Grok-2 y su versión más pequeña, Grok-2 mini. Grok-2 ha mejorado aún más las capacidades de chat, codificación y razonamiento, y añade soporte para tareas basadas en la visión.

Los últimos lanzamientos, Grok 3 y Grok 3 mini, cuentan con funciones avanzadas de razonamiento y de agente de IA.

Llama

Desarrollador: Meta

Fecha de lanzamiento: diciembre de 2024 para Llama 3.3

Número de parámetros: hasta 405 mil millones

Ventana de contexto: 128 000 tokens

Licencia: código abierto

Acceso: Meta, Hugging Face, Kaggle

Entrada: multimodal (imagen, texto)

Output: texto

Llama es la colección de LLM de Meta AI. Estos modelos autorregresivos implementan una arquitectura de transformadores optimizada, con versiones ajustadas que aplican el ajuste detallado supervisado y el aprendizaje por refuerzo con retroalimentación humana (RLHF).⁵

La colección Llama 3 sucede a los LLM Llama 2 y ofrece estos modelos:

● Llama 3.1

● Llama 3.2

● Llama 3.3

Llama 3.1

Llama 3.1 cuenta con un modelo de 8000 millones de parámetros y un modelo fundacional emblemático de 405 000 millones de parámetros. Ambos son modelos multilingües de solo texto.

Llama 3.2

Llama 3.2 se presenta en tamaños de 1000 y 3000 millones de parámetros, lo que la hace suficientemente compacta para dispositivos móviles y edge. Los tamaños de 11 000 y 90 000 millones de parámetros corresponden a modelos LLM multimodales optimizados para responder a preguntas generales sobre una imagen, subtítulos, razonamiento de imágenes y reconocimiento visual.⁶

Llama 3.3

Llama 3.3 es un modelo multilingüe de solo texto de 70 000 millones de parámetros. Tiene un rendimiento comparable o incluso mejor que el Llama 3.1 405B, pero es más rentable

Mistral

Desarrollador: Mistral AI

Fecha de lanzamiento: julio de 2024 para Mistral Large 2

Número de parámetros: hasta 124 mil millones

Ventana de contexto: hasta 256 000 tokens

Licencia: Mistral Research License, Mistral Commercial License, Apache 2.0

Acceso: La Plateforme, Amazon Bedrock, Microsoft Azure AI Studio, Google nube Vertex IA, IBM watsonx.ai

Entrada: multimodal (imagen, texto)

Output: texto

La empresa francesa Mistral AI tiene un conjunto de LLM que abarca estos modelos:

● Mistral Large

● Mistral Small

● Codestral

● Pixtral Grande

Mistral Large

Mistral Large 2 es el modelo insignia de Mistral AI. Tiene 123 mil millones de parámetros y una ventana de contexto de 128 000 tokens. Funciona bien en generación de código, matemáticas y razonamiento. Mistral Large 2 ofrece soporte multilingüe y capacidades de llamadas a funciones.

Mistral Small

Mistral Small 3 es una versión más compacta con 24 000 millones de parámetros. Este modelo es adecuado para la IA conversacional de respuesta rápida, la llamada a funciones de baja latencia y el manejo local de la inferencia en máquinas con recursos limitados. Mistral Small 3 es de código abierto y se publica bajo la licencia Apache 2.0.

Codestral

Codestral 25.01 es la última generación del modelo de codificación de Mistral AI. Cuenta con una longitud de contexto de 256 000 tokens y admite tareas como la finalización, la corrección y la generación de código y la generación de pruebas.

Pixtral Large

Pixtral Large es un modelo multimodal de 124 mil millones de parámetros. Está construido sobre la base del Mistral Large 2 y amplía sus capacidades para incluir la comprensión de las imágenes

o1

Desarrollador: OpenAI

Fecha de lanzamiento: septiembre de 2024 para el o1, enero de 2025 para el o3 mini

Número de parámetros: No divulgado públicamente

Ventana de contexto: hasta 200 000 tokens

Licencia: Propietario

Acceso: API OpenAI

Entrada: multimodal (imagen, texto)

Output: Texto

La serie o1 de modelos de IA incluye o1 y o1-mini. En comparación con los modelos GPT de OpenAI, los LLM o1 están equipados con capacidades de razonamiento más avanzadas. Tanto el o1 como el o1-mini se entrenaron con un aprendizaje por refuerzo a gran escala, lo que les permitía "pensar" antes de responder. Pueden generar una larga cadena de pensamiento antes de responder.

El LLM o1 acepta entradas de imagen y texto, mientras que o1-mini solo puede manejar entradas de texto.⁷ En comparación con o1, o1-mini es más pequeño, más rápido y más rentable. También destaca en el razonamiento y la codificación STEM.

Mientras tanto, o3-mini es el último modelo de razonamiento. Al igual que o1-mini, su fuerza radica en la codificación, las matemáticas y la ciencia. Admite llamadas a funciones y ofrece tres niveles de esfuerzo de razonamiento (bajo, medio y alto) para optimizar diferentes escenarios, como problemas complejos que requieren más esfuerzo de razonamiento o problemas más sencillos que requieren respuestas rápidas y pueden utilizar menos razonamiento.

AI Academy

Por qué los modelos fundacionales son un cambio de paradigma para la IA

Conozca una nueva clase de modelos de IA flexibles y reutilizables capaces de desbloquear nuevos ingresos, reducir costes y aumentar la productividad, y utilice nuestra guía para profundizar más en el tema.

Ir al episodio

Qwen

Desarrollador: Alibaba Cloud

Fecha de lanzamiento: septiembre de 2024 para Qwen 2.5 y enero de 2025 para Qwen 2.5-Max

Número de parámetros: hasta 72 mil millones

Ventana de contexto: hasta 1 millón de tokens

Licencia: código abierto (Apache 2.0), propietaria para modelos más grandes

Acceso: Alibaba Cloud, Hugging Face

Entrada: multimodal (audio, imagen, texto, vídeo)

Output: texto

Qwen es una serie de LLM de la empresa china de cloud computing Alibaba Cloud. Qwen incluye modelos y variantes de lenguaje optimizados para tareas de audio, codificación, matemáticas y visión.

Qwen ofrece estos modelos:

● Qwen 2.5

● Qwen Audio

● Qwen Coder

● Qwen Math

● Qwen VL

Qwen 2.5

Los modelos Qwen2.5 son modelos de decodificador único diseñados para tareas de procesamiento lingüístico multilingüe. Están disponibles en tamaños de 0,5; 3; 7; 14; 32 y 72 mil millones de parámetros. Los modelos más grandes, como el de 72 000 millones, solo están disponibles a través de la API de la plataforma en la nube de Alibaba.

Qwen2.5-Turbo presenta una mayor longitud de contexto de 1 millón de tokens y una velocidad de inferencia más rápida. Por su parte, Qwen2.5-Max es el último modelo de MoE a gran escala.

Qwen Audio

Qwen 2 Audio está diseñado específicamente para tareas basadas en audio. Este modelo de 7 mil millones de parámetros se puede utilizar para transcribir, detectar y clasificar sonidos, manejar comandos de voz e identificar elementos musicales.

Qwen Coder

Qwen2.5 Coder es un LLM específico de código. Está disponible en tamaños de 1500, 7000, 14 000 y 32 000 millones de parámetros.

Qwen Math

Qwen 2 Math es una colección de LLM optimizados para operaciones matemáticas. Estos modelos son adecuados para el razonamiento y la resolución de problemas matemáticos complejos. Qwen 2 Math está disponible en tamaños de 1,5, 7 y 72 mil millones de parámetros.

Qwen VL

Qwen 2 VL es un modelo de visión y lenguaje que combina el procesamiento visual con la comprensión del lenguaje natural. Los casos de uso de muestra implican extraer información de datos visuales y generar subtítulos y resúmenes para imágenes y videos. Qwen 2 VL está disponible en 2, 7 y 72 mil millones de tamaños de parámetros.

Stable LM

Desarrollador: Stability AI

Fecha de lanzamiento: abril de 2024 para Stable LM 2 12B

Número de parámetros: hasta 12 mil millones

Ventana de contexto: 4096 tokens

Licencia: Stability AI Community License o Enterprise License

Acceso: Stability AI, Hugging Face

Entrada: texto

Output: Texto

Stable LM es un grupo de modelos de lenguaje de libre acceso de Stability AI, los creadores del modelo de texto a imagen Stable Diffusion. Stable LM 2 12B tiene 12 000 millones de parámetros, mientras que Stable LM 2 1.6B tiene 1600 millones de parámetros. Se trata de LLM de decodificador único entrenados con datos multilingües y conjuntos de datos de códigos. Ambos modelos incorporan la llamada a funciones y el uso de herramientas.

Stable Code 3B es otro LLM perfeccionado con conjuntos de datos relacionados con el código. Al tener un modelo ligero con 3000 millones de parámetros, Stable Code 3B puede ejecutarse en tiempo real en dispositivos, incluso sin GPU.

Notas a pie de página

Todos los enlaces son externos a ibm.com

¹ Model Card for C4AI Command R 08-2024. Hugging Face. consultado el 14 de febrero de 2025.

² Model Card for C4AI Command R+ 08-2024- Hugging Face. Consultado el 14 de febrero de 2025.

³ DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. GitHub. 23 de enero de 2025.

⁴ Access the latest 2.0 experimental models in the Gemini app. Google. 5 de febrero de 2025.

⁵ Model Information. GitHub. 30 de septiembre de 2024.

⁶ Model Information. GitHub. 30 de septiembre de 2024.

⁷ o1 y o1-mini. OpenAI, consultado el 14 de febrero de 2025.

Cómo elegir el modelo fundacional adecuado

Aprenda a elegir el enfoque correcto en la preparación de conjuntos de datos y el empleo de modelos fundacionales.

Una lista de modelos de lenguaje de gran tamaño

Autores

Una lista de modelos de lenguaje de gran tamaño

Claude

Claude Haiku

Claude Sonnet

Claude Opus

Command

Command R

Command R+

Command R7B

DeepSeek-R1

Falcon

Falcon 2

Falcon 3

Falcon Mamba 7B

Gemini

Gemini 2.0 Flash

Gemini 2.0 Flash-Lite

Gemini 2.0 Pro

GPT

GPT-4o

GPT-4o mini

Las últimas noticias + conocimientos de IA

Granite

Granite 3.2

Granite Vision

Granite Code

Granite Guardian

Granite Embedding

Grok

Llama

Llama 3.1

Llama 3.2

Llama 3.3

Mistral

Mistral Large

Mistral Small

Codestral

Pixtral Large

o1

Por qué los modelos fundacionales son un cambio de paradigma para la IA

Qwen

Qwen 2.5

Qwen Audio

Qwen Coder

Qwen Math

Qwen VL

Stable LM

Notas a pie de página

Share

Recursos

Las últimas noticias + conocimientos de IA