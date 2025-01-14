Un niño pequeño sabe que no debe apilar bloques más grandes sobre los más pequeños. ¿Un robot? No tanto. Al menos hasta ahora.
Los modelos de IA tradicionales destacan en el procesamiento de texto y datos digitales, pero tienen dificultades con la física básica que los niños captan de forma natural. NVIDIA pretende cambiar eso con NVIDIA Cosmos, una nueva plataforma anunciada en CES 2025 que enseña a las máquinas cómo funciona el mundo físico.
La tecnología se centra en los "modelos del mundo", sistemas de IA que forman representaciones internas de la estructura, la dinámica y las relaciones causales. Estos modelos podrían transformar la forma en que los robots y los vehículos autónomos navegan por los entornos del mundo real y ayudar en áreas como la predicción meteorológica y la medicina.
"Los modelos mundiales cambian fundamentalmente la forma en que los sistemas perciben e interactúan con sus entornos", afirma Juan Bernabé-Moreno, director de investigación de IBM en Europa para Irlanda y el Reino Unido. "En lugar de simplemente asignar entradas a outputs, estos modelos forman representaciones internas que capturan la estructura, la dinámica y las relaciones causales. Permite el manejo de datos no estructurados de forma más fluida, adaptándose a condiciones invisibles y haciendo inferencias basadas en menos ejemplos directos o instrucciones".
La plataforma Cosmos incluye modelos fundacionales que pueden generar simulaciones basadas en la física para entrenar sistemas de IA, junto con herramientas avanzadas que, según NVIDIA, pueden procesar y etiquetar 20 millones de horas de vídeo en solo dos semanas utilizando su plataforma Blackwell, una tarea que llevaría más de tres años con el procesamiento tradicional de la CPU.
Mientras que otros modelos de IA generan texto o imágenes, Cosmos se centra en interacciones basadas en la física en entornos industriales y de conducción. Los desarrolladores pueden personalizar el sistema con sus datos, como imágenes de robots de almacén o de pruebas de conducción autónoma. La plataforma ya ha atraído a socios como Uber, que la ve como una posible vía rápida hacia los vehículos autónomos.
NVIDIA lanza los modelos con una licencia abierta a través de plataformas como Hugging Face. El CEO Jensen Huang lo llama un "momento ChatGPT" potencial para la robótica, sugiriendo que los modelos fundacionales mundiales podrían democratizar la IA física, al igual que los grandes modelos de lenguaje (LLM) transformaron la generación de texto.
Armand Ruiz, vicepresidente de producto de IBM Software centrado en plataformas de IA, intervino en el proyecto Cosmos en una publicación de LinkedIn, calificando el sistema de entrenamiento de robots como una "obra maestra técnica". El sistema de código abierto, entrenado en 20 millones de horas de imágenes del mundo real, representa el intento de Nvidia de crear modelos fundacionales para el movimiento y la interacción robóticos.
"¡Lo mejor es que el proyecto es de código abierto!" Ruiz, señalando que Cosmos puede simular escenarios como la caída de cajas en almacenes y permite a las empresas personalizar la formación con sus propios datos. El sistema funciona con la plataforma de simulación Isaac de NVIDIA, aunque su rendimiento en el mundo real aún no se ha probado.
Los investigadores de IBM utilizaron este concepto en el forecasting a través de su modelo fundacional Prithvi-Climate-and-Weather. “Aprendió la dinámica física de los procesos globales del sistema atmosférico”, dice Moreno. "Podría utilizarse para generar simulaciones compatibles con la física y tareas de previsión multigranular, así como para reducir la escala a múltiples resoluciones"
Tres empresas se han sumado al proyecto: Uber, el fabricante de robots Figure AI y el desarrollador de vehículos autónomos Waabi, que han firmado para implementar la tecnología. La plataforma viene con una licencia de modelo abierto para su personalización.
El científico jefe de IA de Meta, Yann LeCun, ha explicado que un modelo mundial es un sistema que observa su entorno y predice lo que podría suceder a continuación, teniendo en cuenta su conocimiento actual y los factores desconocidos que podrían afectar a los resultados futuros. Señala que los modelos de lenguaje actuales de la IA utilizan una versión más simple de este enfoque: solo se fijan en la información pasada para hacer predicciones, sin tener en cuenta diferentes acciones posibles o variables desconocidas.
La capacidad del modelo mundial para simular escenarios antes de la implementación real puede ahorrar dinero y percances en robótica a las empresas.
"Los modelos del mundo permiten a las máquinas planificar movimientos e interacciones en espacios simulados, a menudo llamados 'gemelos digitales', antes de intentarlos en el mundo físico", dice Moreno. "Esto reduce drásticamente los costosos ensayos y errores, mitiga los riesgos de seguridad y acelera el aprendizaje para tareas como el montaje industrial, la logística de almacenes o la robótica orientada a servicios".
Moreno señala que estos mismos principios de simulación también han llamado la atención de los investigadores médicos, que detectaron oportunidades en el desarrollo de fármacos y el tratamiento de enfermedades.
"En la atención médica, los modelos mundiales unifican datos de múltiples dominios (genómicos, proteómicos, transcriptómicos y químicos) para capturar las complejidades de los sistemas biológicos a escala", dice Moreno. "Esta visión holística permite a los investigadores y médicos descubrir patrones ocultos en grandes conjuntos de datos biomédicos, lo que permite tareas como la predicción de perturbaciones genéticas, la clasificación del estado de la enfermedad y el modelado de la respuesta a la terapia".
Sin embargo, lograr estas ambiciosas aplicaciones sanitarias requiere recursos informáticos extraordinarios. El entrenamiento de estos modelos requiere una gran potencia de procesamiento y recursos de datos, incluso con hardware especializado. El primer lote de modelos Cosmos llega al catálogo de API de NVIDIA este año, junto con herramientas para procesar datos de vídeo.
La inversión en potencia informática podría abrir nuevas puertas en todos los sectores. A través de modelos de mundo de IA, las organizaciones pueden crear gemelos virtuales de sus operaciones para probar cambios significativos antes de implementarlos de forma segura. Estas sofisticadas simulaciones pueden permitir a las empresas experimentar con diferentes configuraciones, ya estén planificando un nuevo diseño de almacén o agregando robots a su flujo de trabajo, sin interrumpir su negocio real.
"Los enfoques tradicionales de la IA generativa suelen operar con datos textuales o puramente digitales, sin la capacidad de razonar sobre objetos físicos y fuerzas", afirma Moreno. "Al codificar las reglas que rigen las interacciones del mundo real, los modelos mundiales pueden simular y predecir resultados más allá del texto o las imágenes".
Descubra cómo pueden los CEO equilibrar el valor que la IA generativa es capaz de crear frente a la inversión que exige y los riesgos que introduce.
Aprenda los conceptos fundamentales y desarrolle sus habilidades con laboratorios prácticos, cursos, proyectos guiados, pruebas y mucho más.
Aprenda a incorporar con confianza la IA generativa y el machine learning a su negocio.
¿Quiere obtener un mayor rendimiento de sus inversiones en IA? Descubra cómo escalar la IA generativa en áreas clave impulsa el cambio ayudando a sus mentes más brillantes a crear y ofrecer nuevas soluciones innovadoras.
Hemos encuestado a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo puede adelantarse.
IBM Granite es nuestra familia de modelos de IA abiertos, eficaces y de confianza, adaptados a la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de lenguaje, código, series temporales y salvaguardias.
Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.