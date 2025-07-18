Cuando DeepSeek-R1 salió al mercado el 20de enero, este potente y rentable modelo de razonamiento de IA revolucionó tanto Silicon Valley como Wall Street. ¿Por qué? Podría razonar tan bien como los mejores modelos de OpenAI y Anthropic, pero, según se informa, utilizó mucho menos cómputo y costó menos entrenar y usar. Sólo el mes pasado, la modelo fue descargada más de 800 000 veces en Hugging Face.
"Fue una llamada de atención", recordó Larry Li, fundador y socio director de la firma de inversión AMINO Capital con sede en Palo Alto, en una reciente entrevista con IBM Think. Las nuevas tecnologías suelen ser objeto de “ingeniería inversa”, afirmó. “Pero nadie esperaba que pudiera hacerse tan bien”.
"Simplemente estaba cambiando la narrativa de que Estados Unidos es el único lugar del mundo donde se puede innovar", dijo Matthieu Soulé, el director de C.Lab de Cathay Innovation, un fondo que invierte en innovación de IA en toda la UE y Asia, incluyendo China.
Muchos predijeron que el éxito de DeepSeek revolucionaría la industria y la carrera global de IA de manera más amplia. Seis meses después, queríamos comprobar cómo estabamos: ¿realmente ocurrió esto?
Hablamos con algunos de los mismos expertos que entrevistamos en las horas posteriores al lanzamiento de DeepSeek-R1, así como con varios otros expertos para obtener una imagen holística.
En los días posteriores al lanzamiento de DeepSeek-R1, muchos expresaron su preocupación sobre si la empresa había contado e informado con precisión los costos totales, no solo entrenando el modelo casi final, y qué componentes habían utilizado de qué empresas. En otras palabras, ¿realmente habían hecho algo revolucionario o era un progreso más gradual?
Algunos, como Kaoutar El Maghraoui, científico investigador principal de IBM, sienten que la verdadera innovación puede haber sido lo que ella llama “eficiencia arquitectónica” o combinar técnicas que incluyen “la mezcla de expertos, una estrategia de aprendizaje por refuerzo, codiseño de hardware y software y varios otros trucos de optimización. Es principalmente una implementación inteligente y efectiva de técnicas ya existentes”, dijo en una entrevista reciente de IBM Think.
Aun así, los expertos coinciden en que DeepSeek-R1 cambió el panorama global de la IA de varias maneras clave. Por un lado, muchos daban por sentado que las compañías estadounidenses de IA tenían un "foso" o plomo que sería casi imposible de recuperar. DeepSeek desacreditó esa suposición, ya que redujo la barrera para que los desarrolladores y las empresas más pequeñas accedan a las herramientas para desarrollar sus propios LLM.
"Los desarrolladores y usuarios ahora tienen acceso al mismo tipo de capacidades que o1 de OpenAI por una fracción del costo", dijo Abraham Daniels, gerente sénior de productos técnicos de IBM, en una entrevista.
El hecho de que DeepSeek abriera el código de sus modelos jugó un papel importante en aumentar la accesibilidad. "Hemos visto un aumento del interés en código abierto desde DeepSeek y la contribución a la Alianza IA", dijo Anthony Annunziata, director de Estrategia de IA Abierta en IBM y la Alianza para la IA. La Alianza para la IA es una red internacional de empresas y organizaciones que trabajan para crear una IA abierta y segura, fundada por IBM y Meta.
“En toda Europa, en Vietnam, India y Japón, hay todas estas empresas regionales de IA que quieren asegurarse de mantener el control soberano de su inteligencia artificial, de que pueden moldearla de la manera que quieran para que se adapte a sus necesidades culturales, sociales y económicas. , que son diferentes de los Estados Unidos y otros lugares”, dijo Annunziata.
Proteger la investigación de IA casera es lo más importante. “Hay un verdadero impulso de soberanía digital en el que los gobiernos están tratando de descubrir cómo pueden evitar la influencia extranjera de la IA”, dijo El Maghroui.
La creación de LLM basados en idiomas locales motiva a muchos emprendedores. “La IA se dirige en esa dirección donde, como empresa de servicios públicos, cada país o región quiere tener su propio modelo de lenguaje para al menos tener algo que decir en términos de influir en el comportamiento”, dijo Li.
Japón, por ejemplo, ha promulgado recientemente la Ley de Promoción de la IA para apoyar de manera notable el fomento de esta tecnología. A finales de junio, la Alianza para la IA inauguró una nueva sede en Japón para centrarse en dos áreas de gran interés para los empresarios locales: la soberanía de la IA y la IA en la industria manufacturera. El lenguaje desempeña un papel importante en el control de los sistemas de IA, por lo que, a finales de 2024, por ejemplo, un grupo de más de 1500 investigadores de la academia y la industria se unieron para desarrollar modelos sólidos y abiertos del idioma japonés.
Muchos modelos de IA y emprendedores autóctonos también priorizan los intereses económicos locales. En el caso de Japón, muchas de las empresas que se unieron a la Alianza de IA, incluidas Mitsubishi Electric y Panasonic, están desarrollando modelos de IA dirigidos a aplicaciones de fabricación y manufactura, un segmento particularmente grande de la economía japonesa.
Por otro lado, también hay un creciente apetito por los modelos locales, dijo Daisuke Okanohara, director de tecnología y cofundador de Preferred Networks, una empresa japonesa de hardware y software que desarrolla software avanzado utilizando aprendizaje profundo e IA. En mayo, Preferred Networks lanzó su segunda versión de PLaMo, un modelo compacto que puede ejecutarse on premises y está capacitado en japonés e inglés.
"Su rendimiento no es tan competitivo como el de los modelos fronterizos en general, pero sobresale en ciertas tareas específicas", dijo Okanohara durante una entrevista con IBM Think. "En casos de uso de modelos pequeños, como modelos con entre ocho y 30 000 millones de parámetros, supera a CLANG, GPT-4o mini y modelos similares en varias tareas en japonés".
Vietnam también ha experimentado una oleada de actividad empresarial de LLM, y la Alianza IA lanzó un capítulo allí en junio de este año. Además de desarrollar un modelo de lenguaje vietnamita, los emprendedores se centran en emplear modelos de IA para desarrollar nuevos tipos de chips que impulsen la IA, según Annunziata.
Otra razón por la que DeepSeek inspiró a tantos emprendedores locales fue el hecho de que varios países prohibieron o restringieron el uso de DeepSeek-R1, citando preocupaciones de seguridad y privacidad. Italia, Australia, Corea del Sur y Canadá prohibieron DeepSeek, y también estaba restringido en varios estados de EE. UU., particularmente en sitios de gobierno. Esto tuvo un interesante efecto dominó, ya que motivó a los empresarios locales a utilizar herramientas de código abierto para crear modelos más seguros que pudieran utilizarse en sus zonas geográficas específicas.
El empresario tecnológico y la última compañía tecnológica de VC Kai-Fu Lee, 01.AI, quiere explorar el mercado B2B para la IA empresarial, un sector notoriamente difícil en China, donde la mitad de las empresas son estatales y las empresas privadas más grandes pueden caer bajo la influencia del gobierno a medida que escalan. Lee lanzó previamente Rhymes AI, una compañía que lanzó varios productos el otoño pasado, incluido un motor de búsqueda y Allegro, un modelo de generación de videos de código abierto.
“Lo analizamos con un enfoque pragmático: los modelos son realmente lo suficientemente buenos. Sin embargo, sigue sin ser fácil de usar para muchas empresas y compañías, y ese es el problema que estamos intentando abordar", dijo Anita Huang, cofundadora de 01.AI, en una entrevista con IBM Think. "Creemos que la pieza que falta, especialmente para el mercado empresarial chino, es esa capa de middleware que se convierte en el modelo de Windows o lenguaje grande". Actualmente, su plataforma empresarial utiliza modelos como DeepSeek y Qwen de Alibaba.
Inmediatamente después de DeepSeek, muchos predijeron que había allanado el camino para que dominara el razonamiento de cadena de pensamiento. Sin embargo, desde entonces, la industria cambió. Una nueva investigación ha demostrado que los modelos de razonamiento requieren muchos costos y Recursos y no son necesarios para muchas tareas cuando se busca la utilidad de estos modelos.
Quizás el área más exagerada fue la adopción empresarial de DeepSeek, dados sus bajos costos de licencia (se obtuvo a través de la permisiva licencia MIT).
"En realidad, la adopción empresarial sigue siendo muy limitada, principalmente debido a la falta de garantías de privacidad de datos, falta de cumplimiento, gobernanza y seguridad", dijo El Maghraoui.
La mayoría de las empresas, al menos en Estados Unidos, se quedaron con proveedores que ofrecían soluciones gestionadas o auditables.
Entonces, aunque es bueno que "la gente vea que las innovaciones provienen de lugares sorprendentes", dijo Annunziata, la industria de la IA en general y el mercado en general no han cambiado como algunos predijeron. En cambio, "las empresas de código abierto se han duplicado en el código abierto, y los grandes actores propietarios se centran en adquirir talento, aún más centrados en adquirir competidores o desafiar a los competidores, y están invirtiendo cada vez más dólares en sus modelos".
En última instancia, el mayor legado de DeepSeek podría estar en defender modelos pequeños y aptos para su propósito, dijo Daniels.
"DeepSeek abrió la carrera de la IA e hizo de los modelos de lenguaje pequeño el nuevo campo de batalla", dijo. “Los modelos de lenguaje pequeño y altamente capaces podrían capacitarse de manera más eficiente que sus modelos más grandes y podrían abordar mejor los casos de uso de la empresa”.
Los agentes de IA,sistemas autónomos de IA que pueden razonar, planificar y ejecutar tareas, se han disparado en todas las empresas en 2025 y son uno de esos casos de uso. Los modelos más pequeños suelen ser más adecuados para los sistemas de IA agentiva porque son más eficientes, requieren menos recursos y se pueden adaptar para tareas específicas.
Como dijo Chris Hay, ingeniero distinguido de IBM en un episodio reciente de Mixture of Experts: “Cuando desea ejecutar agentes, quiere que sus modelos sean pequeños, rápidos y ajustados”.
