Los modelos de lenguaje grandes (LLM) se han convertido en la base del desarrollo actual de la inteligencia artificial. Fueron los pioneros y ahora marcan la era de la IA generativa, desde sencillas aplicaciones de chatbots hasta la ingeniería agéntica y otros flujos de trabajo automatizados complejos impulsados por agentes de IA. Su advenimiento ha marcado un punto de inflexión fundamental en la historia del machine learning.
A medida que la tecnología madura, los nuevos LLM continúan proliferando. Los principales desarrolladores de IA, las nuevas empresas emergentes y las potencias empresariales establecidas están lanzando y perfeccionando continuamente nuevos modelos. Mientras tanto, la comunidad de código abierto se dedica constantemente a perfeccionar los LLM de código abierto, fusionando y modificando los modelos existentes con conjuntos de datos personalizados para crear infinitas variantes. Como tal, ninguna lista de LLM podría esperar razonablemente ser exhaustiva, e incluso la lista más “exhaustiva” no permanecería así por mucho tiempo.
Lo que sigue es una lista de algunos de los LLM más destacados y de mayor rendimiento disponibles en la actualidad. Estos son aspectos para tener en cuenta:
A efectos prácticos, los LLM pueden dividirse, en general, en dos categorías: los LLM de código cerrado , disponibles únicamente como productos comerciales a través del desarrollador del modelo, y los modelos abiertos, que se ofrecen de forma gratuita.
Solo se puede acceder a un modelo de código cerrado , o modelo propietario, directamente en la plataforma del desarrollador del modelo, en otras plataformas a las que haya licenciado su modelo o a través de la API patentada del proveedor del modelo.
Debido a que los desarrolladores de modelos cerrados generalmente tratan sus detalles técnicos como secretos comerciales muy bien guardados, por lo general, es imposible saber con certeza los detalles del tamaño, la arquitectura de la red neuronal o el proceso de entrenamiento de un modelo cerrado. Algunos detalles pueden inferirse, por ejemplo, comparando la velocidad de inferencia de un modelo cerrado, el uso de memoria de GPU y el rendimiento del punto de referencia con el de los modelos abiertos cuyos detalles se divulgan públicamente, pero rara vez, si es que sucede, se confirman.
Desde al menos 2022, la mayoría de los modelos fronterizos de última generación en cualquier momento fueron modelos cerrados, pero eso refleja en gran medida las circunstancias históricas reales de la industria, más que una superioridad inherente de los modelos cerrados frente a los modelos abiertos. A continuación, se presentan algunas de las series de modelos cerrados más notables, ordenadas alfabéticamente.
Los modelos de lenguaje Claude de Anthropic se encuentran entre los más eficaces del mundo. Fundada originalmente en 2021 como un laboratorio de investigación sobre seguridad de la IA por antiguos empleados de OpenAI, el enfoque de Anthropic para el desarrollo de modelos se basa en el concepto único de IA constitucional. La “Constitución” de Claude es un documento que sirve no solo para guiar la conducta de los empleados de Anthropic, sino también la conducta (y la creación de datos de entrenamiento sintéticos) de los propios modelos de Claude.
Desde Claude 3, las sucesivas generaciones de Claude han presentado modelos multimodales en 3 tamaños diferentes:
Claude Haiku, Sonnet y Opus pueden procesar entradas de texto, audio e imágenes, y generar texto o audio (como texto a voz). Históricamente, a diferencia de la mayoría de sus competidores en modelo cerrado, ellos (y la plataforma Claude que alimentan) no eran capaces de generar imágenes, pero a partir del 12 de marzo de 2026, Claude ya puede generar imágenes. Al acceder a los modelos a través de la API Claude, los usuarios pueden establecer el “nivel de esfuerzo” del proceso de razonamiento de Sonnet u Opus en “máximo”, “alto”, “medio”, “bajo” o “adaptativo”.
Gemini es la serie de modelos de lenguaje cerrado de Google, desarrollada por su subsidiaria Google DeepMind y lanzada por primera vez en diciembre de 2023. Vale la pena señalar que Google Brain (que se fusionó con DeepMind para formar Google DeepMind en 2023) es responsable de la creación de la arquitectura del modelo transformador que permitió los primeros LLM, después de haber publicado el histórico documento de investigación “Attention is All You Need” en 2017.
Desde principios de 2025, Google ha lanzado cada generación de modelos Gemini con 3 tamaños diferentes, todos los cuales son modelos de razonamiento. Cuando se accede a través de la API Gemini, los usuarios pueden seleccionar uno de varios “niveles de pensamiento” para personalizar la cantidad de tokens y el tiempo que el modelo dedicará antes de generar un resultado final.
Los modelos Gemini Pro, Flash y Flash-Lite son multimodales de forma nativa: pueden procesar entradas de texto, audio, imagen o video y generar resultados de texto. Cuando se accede a través de la plataforma Gemini, los resultados multimodales se pueden generar a través de los modelos separados y especializados de Gemini para la generación de imágenes, video o música.
Desde el lanzamiento de Gemini 2.5 Pro en marzo de 2025, que logró el mejor rendimiento de la industria en ese momento en la mayoría de los puntos de referencia académicos, los modelos Gemini han competido con la serie GPT de Claude y OpenAI como los LLM de mayor rendimiento del mundo. En términos generales, el estatus de modelo “superior” cambia de manos cada vez que se lanza un nuevo modelo fronterizo en una de esas tres series.
Grok es una familia de LLM patentados producidos por xAI, lanzados por primera vez en versión beta como chatbot en X (anteriormente Twitter) en noviembre de 2023. En abril de 2025, xAI lanzó el acceso a la API de Grok 3, que en ese momento era su modelo más nuevo y emblemático.
La línea de modelos de Grok ha continuado cambiando a lo largo de sucesivas generaciones de lanzamientos de modelos.
A partir de Grok 4, los modelos Grok pueden procesar entradas de texto, imágenes y voz. Aunque los LLM de Grok no pueden proporcionar resultados multimodales, el modelo Aurora de xAI puede generar resultados de imagen y video a través de su plataforma Grok Imagine.
Al margen de su rendimiento técnico, gran parte de la trayectoria de Grok (y, en particular, la del chatbot de Grok) ha estado marcada por la controversia, como las acusaciones de difundir desinformación electoral, introducir puntos de vista polarizantes en conversaciones ajenas al tema y perpetuar estereotipos dañinos.
En declaraciones públicas, el CEO de xAI, Elon Musk, ha dicho que “nuestro enfoque general es que vamos a abrir el código abierto de la última versión cuando la próxima versión esté completamente disponible”.1
xAI publicó Grok 1 como código abierto bajo la licencia Apache 2.0 en marzo de 2024. Aunque Grok 3 se lanzó en febrero de 2025, la próxima versión de código abierto de un modelo Grok fue hasta agosto de 2025. De manera confusa, xAI y Musk anunciaron que tenían “Grok 2.5” de código abierto, 2 aunque ningún modelo se había nombrado ni anunciado como tal antes de esa declaración. La propia tarjeta de modelo Hugging Face del modelo incluso se refiere al modelo como “Grok-2”.
En ese anuncio de agosto de 2025, Musk indicó que Grok 3 sería igualmente de código abierto en “unos 6 meses”. Ocho meses después, aún no se ha anunciado dicha fecha de lanzamiento del código abierto.
A la serie GPT de OpenAI, abreviatura de Generative Pretrained Transformer, se le atribuye en gran medida el inicio de la era actual de la IA generativa, especialmente tras el lanzamiento en 2022 de ChatGPT con su modelo GPT-3.5.
Las convenciones de OpenAI para la nomenclatura de modelos y variantes han cambiado significativamente desde 2022, a menudo de manera confusa. Por ejemplo, GPT-4.1 se lanzó después de GPT-4.5, y el modelo de razonamiento o4 estaba disponible al mismo tiempo que el modelo multimodal sin razonamiento GPT-4o, que era completamente distinto de su modelo de razonamiento “o4”, cuyo rendimiento fue inferior al de “o3”. A principios de 2025, el CEO de OpenAI, Sam Altman, reconoció que “nos damos cuenta de lo complicadas que se han vuelto nuestras ofertas de modelos y productos”.
Desde el lanzamiento de GPT-5 en agosto de 2025, las ofertas consolidadas de LLM de la empresa ahora comprenden:
OpenAI también ha liberado 2 modelos GPT de peso abierto, que se detallan en la sección “Modelos abiertos” de este artículo.
Mistral IA, una empresa con sede en Francia fundada por exempleados de Meta IA y Google DeepMind, se dedicó originalmente por completo a los modelos de código abierto tras el lanzamiento de su primer modelo (Mistral 7B) en septiembre de 2023. Desde entonces, Mistral ha pasado a un modelo mixto en el que muchas de sus ofertas tienen código abierto, pero algunos modelos de vanguardia siguen siendo de código cerrado.
A partir de marzo de 2026, los LLM patentados insignia de Mistral IA incluyen:
Las ofertas de modelos de peso abierto de Mistral se detallan más adelante en este artículo.
En machine learning, el código abierto a menudo se usa coloquialmente para referirse a herramientas de IA cuyo código fuente está disponible de forma gratuita, pero el término es en realidad una designación formal administrada por la Open Source Initiative (OSI). La OSI solo certifica una licencia de software determinada como “aprobada por Open Source Initiative” si considera que la licencia cumple con los diez requisitos enumerados en la definición oficial de código abierto (OSD).
La mayoría de los modelos de código abierto no cumplen con todos esos requisitos. Siendo así, el término modelo abierto (o modelo de peso abierto) se refiere con mayor precisión a cualquier LLM distribuido libremente. Dentro del espectro de modelos abiertos hay una gran variabilidad. Un modelo de peso abierto (pero no de código abierto) se puede utilizar para ejecutar inferencias e incluso se puede ajustar, pero si no se proporciona su código fuente completo, no se puede modificar más allá de los cambios en los valores de sus pesos a través del ajuste. Su licencia puede prohibir el uso del modelo en algunos escenarios (como entornos comerciales) o establecer otras estipulaciones específicas en su aplicación.
Por el contrario, un verdadero modelo de código abierto lanzado con código de entrenamiento y una descripción de sus procedimientos de entrenamiento puede modificarse completamente de cualquier manera y usarse sin restricciones. Las licencias de código abierto más comunes y estandarizadas son la licencia Apache 2.0 y la licencia MIT. Sin embargo, cabe señalar que, a menos que el desarrollador de un modelo de código abierto facilite los detalles de sus datos de entrenamiento, el modelo en sí mismo no es totalmente reproducible.
Las versiones de código abierto son esenciales para el desarrollo y la mejora continuos de los LLM, y son en gran medida responsables de permitir su invención en primer lugar. Normalmente, se puede acceder a los modelos abiertos a través de su desarrollador de modelos o de plataformas populares de código abierto, como GitHub o Hugging Face. A continuación, se presenta una lista de series de modelos abiertos destacados, ordenadas alfabéticamente.
Cohere, una empresa con sede en Canadá cuyos fundadores incluyen a uno de los autores de “Attention is All You Need”, se lanzó en 2019. Aunque la empresa publica informes técnicos detallados para cada LLM y aparentemente los lanza como modelos de peso abierto, Cohere licencia sus lanzamientos abiertos bajo una versión modificada de la licencia Creative Commons 4.0 que prohíbe el uso comercial.
Command es la serie de modelos fundacionales insignia de Cohere, diseñada para casos de uso empresariales.
En un comentario publicado en Reddit en marzo de 2026, el CEO de Cohere, Aidan Gomez, indicó que la empresa estaba desarrollando activamente la próxima generación de Command, y que estos serían los primeros modelos de la organización basados en una combinación de expertos (MoE).
Aya es la serie de modelos multilingües de Cohere, lanzada por primera vez en febrero de 2024 con Aya 101,que, como su nombre indica, era “capaz de seguir instrucciones en 101 idiomas”.
DeepSeek es un actor integral en el ecosistema de código abierto, que aporta una serie de innovaciones a las arquitecturas y procesos de entrenamiento de LLM. En ocasiones, el rendimiento de sus modelos ha rivalizado con el de los modelos cerrados de primer nivel. Sus LLM, tanto los pesos como el código, son de código abierto bajo una licencia estándar del MIT. DeepSeek también publica con frecuencia documentos técnicos que detallan sus hallazgos y técnicas.
A pesar de los rumores periódicos de un inminente DeepSeek-v4 (o “DeepSeek-R2”), sus lanzamientos aún no se han materializado.
La serie Falcon de LLM es desarrollada por el Technology Innovation Institute(TTI) de los EAU. Aunque la primera generación de modelos de TII en 2023 fue quizás más notable para Falcon-180B, que en ese momento era uno de los modelos de código abierto más grandes disponibles, desde entonces TII se ha centrado en modelos más pequeños. Falcon2 tenía 11 000 millones de parámetros y Falcon3, los primeros modelos multimodales de TII (lanzados en diciembre de 2024), oscilaban entre 1000 10 000 mil millones.
Las generaciones más recientes de modelos Falcon se han centrado en modelos híbridos Mamba-Transformer.
Los modelos Falcon se lanzan bajo una licencia patentada de Falcon que está inspirada en la infraestructura Apache 2.0, pero agrega estipulaciones y restricciones notables.
Gemma es la familia de modelos abiertos de Google. Según Google, los modelos de Gemma están “construidos a partir de la misma tecnología que impulsa [sus] modelos Gemini”.7
Los modelos Gemma se publican bajo la licencia Gemma, cuyos términos de uso son similares a los de la licencia Apache 2.0, pero se rigen por la Política de uso prohibido de Gemma.
GLM es una familia de LLM de Z.ai (también llamada Zhipu AI) con sede en Beijing que tiene como objetivo un rendimiento de vanguardia. La empresa logró un gran avance con GLM-4.5, que, tras su lanzamiento inicial a finales de julio de 2025, rivalizó ostensiblemente con los principales modelos abiertos del mundo, incluidos los modelos insignia de DeepSeek y Qwen, en todos los puntos de referencia académicos.
IBM Granite es una serie de LLM de código abierto optimizados para casos de uso empresariales, centrados principalmente en modelos pequeños, prácticos y eficientes. Lanzado por primera vez en septiembre de 2023, Granite saltó a la fama con el lanzamiento de Granite 3.0 en octubre de 2024, que vio a la serie Granite alcanzar un rendimiento que compite con el de los principales modelos abiertos de tamaño comparable.
Granite 4, lanzado en octubre de 2025, introdujo una nueva arquitectura transformadora híbrida Mamba2-Transformer para una velocidad y una eficiencia de memoria superiores, especialmente con cargas de trabajo pesadas, en comparación con los modelos transformadores convencionales.
Todos los modelos Granite son de código abierto bajo una licencia Apache 2.0 estándar y están entrenados con datos seguros para la empresa. En octubre de 2025, la serie Granite se convirtió en la primera familia importante de modelos abiertos en recibir la certificación ISO-42001.
GPT-OSS son los modelos de lenguaje de peso abierto de OpenAI, lanzados en agosto de 2025 bajo una licencia Apache 2.0 estándar. Son los primeros LLM abiertos de la empresa desde el lanzamiento de GPT-2 en 2019.
Ambos modelos GPT-OSS se entrenaron con cuantificación de 4 bits de los pesos de sus modelos, lo que aumentó significativamente su velocidad y redujo sus requisitos de memoria en relación con los de los modelos convencionales de tamaño similar.
Kimi es una serie de modelos abiertos desarrollados por Moonshot AI, con sede en Beijing.
Los modelos Kimi se lanzan bajo una Licencia MIT modificada, que requiere que los usuarios “muestren prominentemente 'Kimi K2' en la interfaz de usuario” de cualquier producto con más de 100 millones de usuarios activos mensuales o más de 20 millones de dólares en ingresos mensuales.
Los modelos Llama de Meta (originales estilizados como Llama, abreviatura de “Large Language model Meta AI), han sido una parte integral de la historia de los LLM abiertos. Los primeros lanzamientos de Llama ayudan a democratizar las metodologías de LLM, informando e influyendo fuertemente en muchas convenciones estándar del desarrollo de LLM, desde el entrenamiento hasta la arquitectura y las variaciones de tamaño.
Aunque Meta a menudo utiliza el término “código abierto”, los modelos Llama se lanzan bajo una licencia Llama personalizada que impone restricciones de uso, atribución y acceso. Por lo tanto, la Open Source Initiative ha criticado el uso que hace Meta del término.
MiniMax Group, con sede en Shanghái, lanzó su primer LLM homónimo, MiniMax-Text-01, y un VLM complementario, MiniMax-VL-01, en enero de 2025. Desde entonces, han cobrado protagonismo como uno de los principales desarrolladores de LLM en China, priorizando modelos a gran escala y ventanas de contexto largas.
Los modelos MiniMax se ofrecen bajo una licencia modificada del MIT.
Junto con sus ofertas de código cerrado, Mistral IA ofrece una variedad de modelos abiertos bien considerados. La mayoría de los modelos abiertos de Mistral se publican bajo la licencia estándar Apache 2.0.
La serie LLM abierta del destacado fabricante de hardware NVIDIA es bien considerada por su rendimiento, literatura de investigación e innovaciones arquitectónicas.
Olmo, desarrollado por el Allen Institute for IA (“Ai2”), se encuentra entre los modelos de código abierto más verdaderamente “abiertos” de todos los modelos de su tipo: Ai2 suele publicar todo el código, pesos, puntos de control de entrenamiento y conjuntos de datos asociados junto con una versión estándar de Apache 2.0.
Phi es la línea de modelos abiertos de Microsoft, históricamente centrada en modelos pequeños. Se publican bajo la licencia estándar del MIT.
La serie Qwen de LLM, desarrollada por Alibaba, se ha convertido en uno de los modelos abiertos más populares de la industria. La familia de modelos ofrece una amplia variedad de tamaños de modelos, arquitectura y capacidades destinadas a satisfacer una variedad de necesidades de los desarrolladores.
Acelere la entrega de software con Bob, su socio de IA para un desarrollo seguro y consciente de la intención.
Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.
Ponga a trabajar la IA en su negocio con la experiencia en IA líder del sector y la cartera de soluciones de IBM a su lado.
1. “Elon Musk reins in Grok AI bot to stop election misinformation,” The Register 28 de agosto de 2024
2. “Musk’s xAI chatbot Grok keeps randomly responding about ‘white genocide’ in South Africa,” CNBC. 14 de mayo de 2025
3. “Elon Musk’s AI chatbot, Grok, started calling itself ‘MechaHitler’,” NPR. 9 de julio de 2025
4. @MarioNawfal tweet, X (antes Twitter). 18 de febrero de 2025
5. “GPT-5.4 pro”, OpenAI, documentos de API consultados el 12 de marzo de 2026
6. “Announcing Codestral 25.08 and the Complete Mistral Coding Stack for Enterprise,” Mistral AI. 30 de julio de 2025
7. Gemma, Google DeepMind, consultado el 12 de marzo de 2026
8. “Alibaba-backed Moonshot releases new Kimi AI model that beats ChatGPT, Claude in coding — and it costs less,” CNBC. 14 de julio de 2025
9. “5 Thoughts on Kimi K2 Thinking,” Interconnects. 6 de noviembre de 2025
10. Meta Llama: página de modelos (ordenada por “Most Downloads”), Hugging Face. Consultado el 11 de marzo de 2026
11. “MiniMax M2.7: Early Echoes of Self-Evolution,” MiniMax. 18 de marzo de 2026
12. “Introducing Mistral 3,” Mistral AI. 2 de diciembre de 2025
13. Mistral AI: página de modelos (ordenada “Most Downloads”), Hugging Face. Consultado el 11 de marzo de 2026