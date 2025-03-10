더 빠르고 저렴하며 잠재적으로 더 강력한 대안을 약속하는 새로운 종류의 AI 모델이 GPT 스타일 시스템의 지배력에 도전하고 있습니다.
스탠포드 출신 연구자들이 설립한 스타트업인 Inception Labs는 최근 단어를 하나씩 예측하는 것이 아니라 전체 구문을 한 번에 다듬는 확산 기반 언어 모델(dLLM)인 Mercury를 출시했습니다. 앞의 텍스트를 기반으로 한 번에 한 단어씩 생성하는 자기회귀 방식을 사용하는 기존의 대규모 언어 모델(LLM)과 달리, 확산 모델은 세분화를 통해 반복적으로 텍스트를 개선합니다.
스탠포드 대학교의 컴퓨터 과학 교수이자 Inception Labs의 공동 창립자인 Stefano Ermon은 IBM Think와의 대화에서 "dLLM은 가능성의 경계를 확장한다"고 말했습니다. “Mercury는 타의 추종을 불허하는 속도와 효율성을 제공하며, 더 많은 테스트 시간 컴퓨팅을 활용함으로써 DLMS는 품질의 기준을 설정하고 엣지 및 엔터프라이즈 애플리케이션의 전반적인 고객 만족도를 향상시킬 것입니다.”
IBM 리서치 엔지니어인 Benjamin Hoover는 "대다수의 사람들이 확산 모델을 사용하게 되기까지 2~3년밖에 남지 않았습니다."라며, "Inception Labs의 모델을 보고 '이것이 조만간 일어날 일'이라는 생각이 들었습니다."라고 말했습니다.
확산 모델은 기존 AI와 동일한 규칙에 따라 작동하지 않습니다. GPT와 같은 자기회귀 모델은 한 번에 하나의 토큰을 예측하여 단어별로 문장을 작성합니다. 모델이 'To whom it may concern'이라는 문구를 생성하는 경우, 'To'를 예측한 다음 'whom'을 예측하고, 이어서 'it'을 예측하는 등 한 번에 한 단계씩 예측합니다. 하지만 확산 모델은 전혀 다릅니다. 확산 모델은 텍스트를 순차적으로 연결하는 대신 전체 구절을 거칠고 노이즈가 많은 버전으로 시작하여 여러 단계로 다듬습니다. 이는 마치 아티스트가 각 요소를 순서대로 그리는 것이 아니라 대략적인 윤곽을 스케치한 후 세부 디테일을 묘사하는 것과도 같습니다. 문장 전체를 한 번에 고려함으로써 확산 모델은 기존 LLM보다 더 높은 일관성과 정확성으로 더 빠르게 응답을 생성할 수 있습니다.
Hoover는 이 기술을 오래된 개념을 현대적으로 변형한 것이라고 생각합니다. "확산 모델은 근본적으로 오류 수정 메커니즘입니다."라고 그는 말합니다. "즉, 노이즈가 있는 입력으로 시작하여 원하는 아웃풋에 도달할 때까지 점진적으로 노이즈를 제거하는 방식으로 작업하는 것이죠."
확산 모델은 이미지 생성에 널리 사용되어 왔으며, DALL·E, Stable Diffusion 및 Midjourney와 같은 모델은 노이즈가 많은 이미지를 고품질 비주얼로 정제합니다. 그러나 언어의 경우 문법과 구문을 엄격하게 준수해야 하기 때문에 이 접근 방식을 텍스트에 적용하기가 더 어렵습니다.
Ermon은 "과거에도 텍스트 생성에 확산 모델을 적용하려는 시도가 여러 번 있었지만, 번번이 어려움에 부딪혔습니다."라며, "Mercury가 다른 사람들이 실패한 분야에서 성공할 수 있었던 것은 학습 알고리즘과 추론 알고리즘 모두의 독점적인 혁신이었습니다." 점진적으로 알아볼 수 있는 형태로 정리할 수 있는 이미지와 달리, 언어는 엄격한 문법 규칙을 따르므로 반복적인 개선이 더 까다롭습니다."라고 말했습니다.
Hoover는 확산 모델이 격차를 줄이는 방법의 대표적인 예로 Inception Labs의 Mercury를 꼽습니다. "이 모델은 확산이 자체적으로 유지될 수 있으며 실제로 유사한 자기회귀 모델보다 더 빠르고 효율적이라는 것이 입증되었습니다."
확산 기반 LLM의 효율성은 특히 비용과 속도가 중요한 애플리케이션에서 AI 배포를 뒤흔들 수 있습니다. 기존 LLM은 상당한 컴퓨팅 성능을 필요로 하므로 실행 비용이 많이 듭니다. 하지만 확산 모델은 훨씬 저렴한 비용으로 비슷하거나 더 나은 성능을 제공할 것을 약속합니다. 확산 모델은 기존 LLM처럼 각 단어를 단계별로 생성하는 대신 전체 시퀀스를 병렬로 정제하여 계산 오버헤드를 줄이기 때문에 더 효율적인 경우가 많습니다.
"우리 고객과 얼리 어댑터는 고객 지원, 영업, 게임 등의 분야에서 dLLM으로 구동되는 애플리케이션을 개발하고 있습니다."라고 Ermon은 말했습니다. "이들은 애플리케이션의 응답성, 지능, 비용을 개선하고 있습니다."
Hoover는 훨씬 더 광범위한 영향을 예측했습니다. 그는 "현재 AI는 에너지 소비로 인해 제약을 받고 있습니다."라며, “대형 모델은 엄청난 양의 전력을 사용합니다. 그러나 확산 모델은 다르게 작동하므로 효율성이 훨씬 더 높습니다. 장기적으로는 아날로그 하드웨어에서 실행되는 확산 기반 AI 시스템을 통해 에너지 비용을 크게 절감할 수 있습니다."라고 말했습니다.
이진 연산 대신 연속적인 전기 신호를 사용하여 정보를처리하는 아날로그 컴퓨팅은 오랫동안 AI의 에너지 문제에 대한 잠재적인 해결책으로 홍보되어 왔습니다. Hoover는 확산 모델이 특히 이러한 접근 방식에 적합하다고 생각합니다.
"이러한 모델은 본질적으로 해석이 가능합니다."라고 그는 말합니다. "이는 내부 계산을 아날로그 회로에 직접 매핑할 수 있다는 것을 의미하는데, 기존의 딥 러닝 아키텍처로 이를 달성하기는 훨씬 더 어렵습니다."
