유아는 작은 블록 위에 큰 블록을 쌓아서는 안 된다는 것을 알고 있습니다. 로봇은요? 안될 것입니다. 적어도 지금까지는요.
기존의 AI 모델은 텍스트와 디지털 데이터를 처리하는 데는 탁월하지만 아이들이 자연스럽게 이해하는 기본 물리학에는 어려움을 겪습니다. NVIDIA는 CES 2025에서 기계에게 물리적 세계가 어떻게 작동하는지 가르치는 새로운 플랫폼인 NVIDIA Cosmos를 통해 이러한 상황을 변화시키고자 합니다.
이 기술은 구조, 역학 및 인과 관계의 내부 표현을 형성하는 "세계 모델," AI 시스템을 중심으로 합니다. 이러한 모델은 로봇과 자율 주행 차량이 실제 환경을 탐색하고 날씨 예측 및 의료와 같은 분야에서 도움을 주는 방식을 변화시킬 수 있습니다.
"세계 모델은 시스템이 환경을 인식하고 상호 작용하는 방식을 근본적으로 변화시킵니다."라고 아일랜드 및 영국 유럽 지역 IBM 연구 책임자인 Juan Bernabé-Moreno는 말합니다. "이러한 모델은 단순히 입력을 아웃풋에 매핑하는 것이 아니라 구조, 역학 및 인과 관계를 캡처하는 내부 표현을 형성합니다. 이를 통해 비정형 데이터를 보다 유연하게 처리하고, 보이지 않는 조건에 적응하며, 더 적은 수의 직접적인 예제나 지침을 기반으로 추론할 수 있습니다."
Cosmos 플랫폼에는 AI 시스템 학습을 위한 물리 기반 시뮬레이션을 생성할 수 있는 파운데이션 모델과 함께 Blackwell 플랫폼을 사용하여 단 2주 만에 2천만 시간 분량의 비디오를 처리하고 레이블링할 수 있는 고급 도구가 포함되어 있습니다. 기존 CPU 처리로는 3년 이상 걸리던 작업입니다.
다른 AI 모델이 텍스트나 이미지를 생성하는 반면, Cosmos는 산업 및 운전 환경에서의 물리학 기반 상호 작용에 중점을 둡니다. 개발자는 창고 로봇의 영상이나 자율 주행 테스트 영상과 같은 데이터로 시스템을 사용자 지정할 수 있습니다. 이 플랫폼은 이미 자율 주행 차량의 잠재적인 패스트 트랙으로 보고 있는 Uber와 같은 파트너들의 관심을 끌고 있습니다.
NVIDIA는 Hugging Face와 같은 플랫폼을 통해 오픈 라이선스로 모델을 출시하고 있습니다. CEO 젠슨 황은 이를 로보틱의 잠재적인 "ChatGPT 순간"이라고 부르며 , 대규모 언어 모델(LLM)이 텍스트 생성을 변화시킨 것처럼 세계 파운데이션 모델이 물리적 AI를 민주화할 수 있다고 제안했습니다.
AI 플랫폼을 전문으로 하는 IBM Software의 제품 담당 부사장인 Armand Ruiz는 LinkedIn 게시물에서 로봇 훈련 시스템을 "기술적 걸작"이라고 부르며 Cosmos 프로젝트에 대해 언급했습니다. 이 오픈 소스 시스템은 2천만 시간 동안 훈련되었습니다. 실제 영상의 비율은 로봇의 움직임과 상호 작용을 위한 파운데이션 모델을 만들려는 Nvidia의 시도를 나타냅니다.
"가장 좋은 점은 이 프로젝트가 오픈 소스라는 점입니다!" Ruiz는 Cosmos가 창고에 상자가 떨어지는 것과 같은 시나리오를 시뮬레이션할 수 있으며 기업이 자체 데이터로 교육을 맞춤화할 수 있도록 한다고 언급했습니다. 이 시스템은 NVIDIA의 Isaac 시뮬레이션 플랫폼과 함께 작동하지만 성능은 아직 테스트되지 않았습니다.
IBM 연구원들은 이 개념을 Prithvi-Climate-and-Weather 파운데이션 모델을 통해 날씨 예측에 사용했습니다. Moreno는 "대기 시스템의 글로벌 프로세스에 대한 물리적 역학을 배웠습니다."라고 말했습니다. "물리적으로 호환되는 시뮬레이션과 다차원 예측 작업을 생성하고 여러 해상도로 다운스케일링하는 데 사용할 수 있습니다."
Uber, 로봇 제조업체 Figure AI, 자율주행차 개발업체 Waabi 등 3개 회사가 이 기술을 구현하기 위해 샌드박스에 참여했습니다. 이 플랫폼은 커스터마이징을 위한 오픈 모델 라이선스와 함께 제공됩니다.
Meta의 수석 AI 과학자인 Yann LeCun은 세계 모델이란 환경을 관찰하고 미래 결과에 영향을 미칠 수 있는 알려지지 않은 요소를 고려하여 환경을 관찰하고 다음에 일어날 수 있는 일을 예측하는 시스템이라고 설명합니다. 그는 현재의 AI 언어 모델이 이러한 접근 방식의 더 간단한 버전을 사용한다고 지적합니다. 즉, 가능한 다른 행동이나 알려지지 않은 변수를 고려하지 않고 과거 정보만 보고 예측을 내린다는 것입니다.
세계 모델은 실제 구현에 앞서 시나리오를 시뮬레이션할 수 있는 능력을 갖추고 있어 로보틱 분야에서 기업의 비용과 사고를 모두 절감할 수 있습니다.
"세계 모델을 사용하면 기계가 물리적 세계에서 시도하기 전에 종종 '디지털 트윈'이라고 불리는 시뮬레이션된 공간에서 움직임과 상호 작용을 계획할 수 있습니다."라고 Moreno는 말합니다. "이를 통해 비용이 많이 드는 시행착오를 획기적으로 줄이고, 안전 위험을 완화하며, 산업 조립, 창고 물류 또는 서비스 지향 로보틱과 같은 작업에 대한 학습을 가속화할 수 있습니다."
Moreno는 이러한 동일한 시뮬레이션 원리가 약물 개발 및 질병 치료에서 기회를 발견한 의료 연구자들의 관심을 끌기도 했다고 지적합니다.
"의료 분야에서 세계 모델은 게놈, 단백질체, 전사체, 화학 등 여러 도메인의 데이터를 통합하여 생물학적 시스템의 복잡성을 대규모로 포착합니다."라고 Moreno는 말합니다. "이러한 전체적인 관점을 통해 연구자와 임상의는 대규모 생의학 데이터 세트에서 숨겨진 패턴을 발견하여 유전자 섭동 예측, 질병 상태 분류 및 치료-반응 모델링과 같은 작업을 수행할 수 있습니다."
그러나 이러한 야심찬 애플리케이션을 달성하려면 탁월한 컴퓨팅 리소스가 필요합니다. 이러한 모델을 학습하려면 특수 하드웨어를 사용하더라도 엄청난 처리 능력과 데이터 리소스가 필요합니다. Cosmos 모델의 첫 번째 배치는 비디오 데이터 처리 도구와 함께 올해 NVIDIA의 API 카탈로그에 포함되었습니다.
컴퓨팅 역량에 대한 투자는 산업 전반에 걸쳐 새로운 문을 열 수 있습니다. 조직은 AI 세계 모델을 통해 운영의 가상 트윈을 생성하여 중요한 변경 사항을 안전하게 구현하기 전에 테스트할 수 있습니다. 이러한 정교한 시뮬레이션을 통해 회사는 실제 사업을 방해하지 않고도 새로운 창고 레이아웃을 계획하거나 워크플로에 로봇을 추가하는 등 다양한 설정을 실험할 수 있습니다.
"기존의 생성형 AI 접근 방식은 일반적으로 텍스트 또는 순수 디지털 데이터에서 작동하므로 물리적 물체와 힘에 대해 추론할 수 있는 능력이 부족합니다."라고 Moreno는 말합니다. "세계 모델은 실제 상호 작용을 지배하는 규칙을 인코딩함으로써 텍스트나 이미지 이상의 결과를 시뮬레이션하고 예측할 수 있습니다."
AI 투자에 대해 더 나은 수익을 얻고 싶으신가요? 주요 영역에서 차세대 AI를 확장하여 최고의 인재들이 혁신적인 새 솔루션을 구축하고 제공하도록 지원함으로써 변화를 주도하는 방법을 알아보세요.
IBM은 2,000개 조직을 대상으로 AI 이니셔티브에 대한 설문조사를 실시하여 효과적인 전략과 효과적이지 못한 전략, 그리고 앞서나갈 수 있는 방법을 알아보았습니다.
IBM Granite는 비즈니스에 맞게 맞춤화되고 AI 애플리케이션 확장에 최적화되었으며 개방적이고 성능이 뛰어나며 신뢰할 수 있는 AI 모델 제품군입니다. 언어, 코드, 시계열 및 가드레일 옵션을 살펴보세요.
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.
AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.