멀티모달 AI는 여러 모달리티 또는 데이터 유형의 정보를 처리하고 통합할 수 있는 머신 러닝 모델을 말합니다. 이러한 모달리티에는 텍스트, 이미지, 오디오, 비디오 및 기타 형태의 감각적 인풋이 포함될 수 있습니다.
일반적으로 단일 유형의 데이터를 처리하도록 설계된 기존 AI 모델과 달리 멀티모달 AI는 다양한 형태의 데이터 인풋을 결합 및 분석하여 보다 포괄적인 이해를 달성하고 보다 강력한 아웃풋을 생성합니다.
예를 들어, 멀티모달 모델은 풍경 사진을 인풋으로 받아 해당 장소의 특성에 대한 서면 요약을 생성할 수 있습니다. 또는 풍경에 대한 서면 요약을 받고 해당 설명을 기반으로 이미지를 생성할 수 있습니다. 여러 모달리티에 걸쳐 작동할 수 있는 이 기능은 이러한 모델에 강력한 역량을 제공합니다.
OpenAI는 2022년 11월 ChatGPT를 출시하여 생성형 AI를 빠르게 세상에 널리 알렸습니다. ChatGPT는 자연어 처리(NLP)를 사용하여 텍스트 인풋을 수신하고 텍스트 아웃풋을 생성하도록 설계된 단일 모달리티 AI였습니다.
멀티모달 AI는 여러 유형의 인풋 및 아웃풋을 허용하여 생성형 AI를 더욱 강력하고 유용하게 만듭니다. 예를 들어 Dall-e는 Open AI의 GPT 모델의 초기 멀티모달 구현이었지만, GPT-4o는 ChatGPT에도 멀티모달 기능을 도입했습니다.
멀티모달 AI 모델은 다양한 데이터 소스 및 여러 미디어의 정보를 결합하여 데이터를 더욱 포괄적이고 미묘하게 이해할 수 있습니다. 이를 통해 AI는 정보에 입각한 결정을 내리고 더 정확한 아웃풋을 생성할 수 있습니다.
멀티모달 AI 시스템은 다양한 모달리티을 활용하여 이미지 인식, 언어 번역 및 음성 인식과 같은 작업에서 더 높은 정확도와 견실한 성능을 달성할 수 있습니다. 다양한 유형의 데이터를 통합하면 더 많은 맥락을 파악하고 모호성을 줄일 수 있습니다. 멀티모달 AI 시스템은 잡음 및 누락된 데이터에 대한 복원력이 더욱 뛰어납니다. 한 모달리티가 신뢰할 수 없거나 사용할 수 없는 경우 시스템은 성능을 유지하기 위해 다른 모달리티에 의존할 수 있습니다.
멀티모달 AI는 더 나은 사용자 경험을 위해 더욱 자연스럽고 직관적인 인터페이스를 구현하여 인간-컴퓨터 상호 작용을 향상합니다. 예를 들어, 가상 비서는 음성 명령과 시각적 신호를 모두 이해하고 응답할 수 있으므로 상호 작용이 더 원활하고 효율적입니다.
안경에 대해 이야기하고 사용자가 함께 공유한 사진을 기반으로 안경 사이즈를 추천할 수 있는 챗봇이나 특정 새의 이미지를 인식하고 새의 노래가 담긴 오디오 클립을 '듣는' 방식으로 새를 식별할 수 있는 새 식별 앱을 상상해 보세요. 여러 감각 차원에서 작동할 수 있는 AI는 사용자에게 더 의미 있는 아웃풋을 산출하고 데이터와 소통할 수 있는 더 많은 방법을 제공할 수 있습니다.
인공 지능은 빠르게 발전하는 분야로, 파운데이션 모델을 구축하기 위한 학습 알고리즘의 최신 발전 사항이 멀티모달 연구에 적용되고 있습니다. 이 분야는 딥 러닝과 데이터 과학의 발전으로 생성형 AI를 위한 길이 열리기 전에 개발되었던 오디오-비주얼 음성 인식 및 멀티미디어 콘텐츠 인덱싱과 같이 멀티모달 혁신을 이미 보았습니다.
오늘날에는 의사들이 의료 분야에서 의료 영상을 분석하는 것부터 AI 기반 자율 주행 자동차에서 컴퓨팅 비전을 다른 감각적 인풋과 함께 사용하는 것까지 다양한 사용 사례에 멀티모달 AI를 사용합니다.
카네기멜론 대학에서 2022년에 발표한 논문은 멀티모달 AI의 세 가지 특징인 이질성, 연결성, 상호 작용을 설명합니다.1 이질성은 모달리티의 다양한 품질, 구조, 표현을 말합니다. 이벤트에 대한 텍스트 설명은 동일한 이벤트의 사진과는 품질, 구조 및 표현 방식이 근본적으로 다릅니다.
연결은 서로 다른 모달리티 간에 공유되는 상호 보완적인 정보를 나타냅니다. 이러한 연결은 통계적 유사성 또는 의미론적 대응에 반영될 수 있습니다. 마지막으로, 상호 작용은 서로 다른 모달리티가 결합되었을 때 상호 작용하는 방식을 나타냅니다.
멀티모달 AI의 핵심 엔지니어링 과제는 다양한 유형의 데이터를 효과적으로 통합하고 처리하여 각 모달리티의 장점을 활용하면서 각 한계를 극복할 수 있는 모델을 만드는 것입니다. 논문의 저자들은 또한 표현, 정렬, 추론, 생성, 전이 및 정량화와 같은 몇 가지 과제를 제시했습니다.
표현은 모달리티 간의 이질성과 상호 연결을 반영하기 위해 멀티모달 데이터를 표현하고 요약하는 방법을 나타냅니다. 실무자는 특수 신경망(예: 이미지용 CNN, 텍스트용 트랜스포머)을 사용하여 특징을 추출하고 표현 학습을 위해 공동 임베딩 공간 또는 어텐션 메커니즘(attention mechanism)을 사용합니다.
정렬은 요소 간의 연결과 상호 작용을 식별하는 것을 목표로 합니다. 예를 들어, 엔지니어는 비디오 및 오디오 데이터의 시간 정렬, 이미지 및 텍스트의 공간 정렬 기술을 사용합니다.
추론은 일반적으로 여러 추론 단계를 통해 멀티모달 증거로부터 지식을 구성하는 것을 목표로 합니다.
생성은 모달 간 상호 작용, 구조 및 일관성을 반영하는 원시 모달을 생성하는 생성 프로세스 학습을 의미합니다.
전이는 모달리티 간에 지식을 전달하는 것을 목표로 합니다. 고급 전이 학습 기술과 공유 임베딩 공간을 통해 지식을 모달리티 간에 전송할 수 있습니다.
정량화는 멀티모달 학습을 이해하기 위한 경험적 및 이론적 연구를 수반하여 멀티모달 내에서 성능을 더 잘 평가할 수 있도록 합니다.
멀티모달 AI는 개발 및 적용을 좌우하는 몇 가지 주요 추세와 함께 빠르게 진화하고 있는 분야입니다. 다음은 주목할 만한 몇 가지 추세입니다.
OpenAI의 GPT-4 V(ision), Google의 Gemini 및 기타 통합 모델은 단일 아키텍처 내에서 텍스트, 이미지 및 기타 데이터 유형을 처리하도록 설계되었습니다. 이러한 모델은 멀티모달 콘텐츠를 원활하게 이해하고 생성할 수 있습니다.
고급 어텐션 메커니즘과 트랜스포머는 서로 다른 형식의 데이터를 더 잘 정렬하고 융합하는 데 사용되어 보다 일관되고 상황에 맞는 정확한 아웃풋을 이끌어 냅니다.
예를 들어, 자율 주행 및 증강 현실의 애플리케이션은 AI가 다양한 센서(카메라, LIDAR 등)의 데이터를 실시간으로 처리하고 통합하여 즉각적인 결정을 내려야 합니다.
연구원들은 학습 데이터 세트를 보강하고 모델 성능을 개선하기 위해 다양한 양식(예: 해당 이미지와 텍스트 설명)을 결합한 합성 데이터를 생성하고 있습니다.
Hugging Face 및 Google AI와 같은 이니셔티브는 오픈 소스 AI 도구를 제공하여 연구자와 개발자가 이 분야를 발전시킬 수 있는 협업 환경을 조성하고 있습니다.
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.
1 https://arxiv.org/abs/2209.03430, 2022년 9월 7일.