Uma criança sabe que não deve empilhar blocos maiores sobre blocos menores. Um robô? Nem tanto. Pelo menos até agora.
Modelos de IA tradicionais são excelentes no processamento de texto e dados digitais, mas têm dificuldades com a física básica que as crianças compreendem naturalmente. A NVIDIA pretende mudar isso com o NVIDIA Cosmos, uma nova plataforma anunciada na CES 2025 que ensina às máquinas como o mundo físico funciona.
A tecnologia se concentra em "modelos do mundo", sistemas de IA que formam representações internas de estrutura, dinâmica e relações causais. Esses modelos podem transformar a maneira como robôs e veículos autônomos navegam em ambientes do mundo real e ajudar em áreas como previsão do tempo e medicina.
"Modelos de mundo mudam fundamentalmente a forma como os sistemas percebem e interagem com seus ambientes," diz Juan Bernabé-Moreno, diretor da IBM Pesquisa na Europa para a Irlanda e o Reino Unido. "Em vez de simplesmente mapear inputs para produções, esses modelos formam representações internas que capturam estrutura, dinâmica e relações causais. Ele permite o tratamento de dados não estruturados de forma mais fluida, adaptando-se a condições não vistas e fazendo inferências com base em menos exemplos ou instruções diretas."
A plataforma Cosmos inclui modelos de base que podem gerar simulações baseadas em física para treinar sistemas de IA, juntamente com ferramentas avançadas que a NVIDIA diz que podem processar e rotular 20 milhões de horas de vídeo em apenas duas semanas usando sua plataforma Blackwell, uma tarefa que levaria mais de três anos com o processamento em CPU tradicional.
Enquanto outros modelos de IA geram texto ou imagens, o Cosmos se concentra em interações baseadas na física em ambientes industriais e de direção. Os desenvolvedores podem personalizar o sistema com seus próprios dados, como imagens de robôs de armazém ou unidades de teste autônomas. A plataforma já atraiu parceiros como a Uber, que a vê como um potencial caminho rápido para veículos autônomos.
A NVIDIA está lançando os modelos sob uma licença aberta por meio de plataformas como a Hugging Face. O CEO Jensen Huang chama isso de um potencial "momento ChatGPT" para a robótica, sugerindo que modelos de base mundial poderiam democratizar a IA física, assim como grandes modelos de linguagem (LLMs) transformaram a geração de texto.
Armand Ruiz, vice-presidente de produtos da IBM Software focado em plataformas de IA, avaliou o projeto Cosmos em um post no LinkedIn, chamando o sistema de treinamento de robôs de "obra-prima técnica".. O sistema de código aberto, treinado em 20 milhões de horas de filmagens do mundo real, representa a tentativa da Nvidia de criar modelos de base para movimento e interação robótica.
"O melhor é que o projeto é código aberto!" Ruiz, observando que a Cosmos pode simular cenários como caixas caindo em armazéns e permite que as empresas personalizem o treinamento com seus próprios dados. O sistema funciona com a plataforma de simulação relatada pela NVIDIA, embora seu desempenho no mundo real ainda precise ser testado.
Os pesquisadores da IBM usaram esse conceito na previsão do tempo por meio de seu modelo de base Prithvi-Climate-and-Weather. "Ele aprendeu a dinâmica física dos processos globais do sistema atmosférico", diz Moreno. "Ele poderia ser usado para gerar simulações físicas compatíveis e tarefas de forecasting multigranulares, bem como reduzir a escala para várias resoluções."
Três empresas entraram na área de testes: Uber, a fabricante de robôs Figure IA e a desenvolvedora de veículos autônomos Waabi assinaram contrato para implementar a tecnologia. A plataforma vem com uma licença de modelo aberto para personalização.
O cientista-chefe de IA da Meta, Yann LeCun, explicou que um modelo mundial é um sistema que observa seu ambiente e prevê o que pode acontecer a seguir, considerando o seu conhecimento atual e fatores desconhecidos que podem afetar os resultados futuros. Ele observa que os modelos de linguagem de IA atuais usam uma versão mais simples dessa abordagem: eles só analisam informações passadas para fazer previsões, sem contabilizar diferentes ações possíveis ou variáveis desconhecidas.
A capacidade do modelo mundial de simular cenários antes da implementação no mundo real pode economizar dinheiro para as empresas e evitar contratempos em robótica.
"Modelos mundo permitem que máquinas planejem movimentos e interações em espaços simulados, muitas vezes chamados de 'gêmeos digitais', antes de tentar no mundo físico," diz Moreno. "Isso reduz drasticamente as dispendiosas tentativas e erros, mitiga os riscos de segurança e acelera o aprendizado para tarefas como montagem industrial, logística de armazéns ou robótica orientada a serviços."
Moreno destaca que esses mesmos princípios de simulação também chamaram a atenção de pesquisadores da área médica, que identificaram oportunidades no desenvolvimento de medicamentos e no tratamento de doenças.
"Na área da saúde, os modelos mundiais unificam dados de vários domínios — genômicos, proteômicas, transcritômicas e químicas — para capturar as complexidades dos sistemas biológicos em escala", diz Moreno. "Essa visão holística capacita pesquisadores e clínicos a descobrir padrões ocultos em grandes conjuntos de dados biomédicos, permitindo tarefas como previsão de perturbação genética, classificação do estado da doença e modelagem de resposta à terapia."
No entanto, alcançar essas aplicações ambiciosas na área de saúde exige recursos computacionais extraordinários. O treinamento desses modelos exige um grande poder de processamento e recursos de dados, mesmo com hardware especializado. O primeiro lote de modelos do Cosmos chega ao catálogo de APIs da NVIDIA este ano, juntamente com ferramentas para o processamento de dados de vídeo.
O investimento em competências de computação pode abrir novas portas em diversos setores. Por meio de modelos de mundo de IA, as organizações podem criar gêmeos virtuais de suas operações para testar mudanças significativas antes da implementação com segurança. Essas simulações sofisticadas podem permitir que as empresas experimentem diferentes configurações, seja planejando um novo layout de armazém ou adicionando robôs ao fluxo de trabalho, sem interromper seus negócios no mundo real.
"A abordagem tradicional de IA generativa normalmente opera com dados textuais ou puramente digitais, sem a capacidade de raciocinar sobre objetos e forças físicas", explica Moreno. "Ao codificar as regras que regem as interações do mundo real, os modelos de mundo podem simular e prever resultados além de texto ou imagens."
