비전 언어 모델(VLM)은 컴퓨팅 비전과 자연어 처리(NLP) 기능을 결합한 인공 지능(AI) 모델입니다.
VLM은 텍스트 데이터와 이미지 또는 동영상과 같은 시각적 데이터 간의 관계를 매핑하는 방법을 학습하여, 시각적 입력에서 텍스트를 생성하거나 시각적 정보의 맥락에서 자연어 프롬프트를 이해할 수 있습니다.
시각적 언어 모델이라고도 하는 VLM은 대규모 언어 모델(LLM)과 비전 모델 또는 시각적 머신 러닝(ML) 알고리즘을 결합한 것입니다.
멀티모달 AI 시스템인 VLM은 텍스트와 이미지 또는 동영상을 입력으로 받아 일반적으로 이미지 또는 동영상 설명의 형태로 텍스트를 출력하여 이미지에 대한 질문에 답하거나 동영상에서 이미지 또는 객체의 일부를 식별합니다.
비전 언어 모델은 일반적으로 다음과 같은 두 가지 주요 구성 요소로 구성됩니다.
● 언어 인코더
● 비전 인코더
언어 인코더는 단어와 구문 간의 의미적 의미와 문맥적 연관성을 포착하여 AI 모델이 처리할 수 있는 텍스트 임베딩으로 변환합니다.
대부분의 VLM은 언어 인코더에 트랜스포머 모델로 알려진 신경망 아키텍처를 사용합니다. 트랜스포머의 예로는 오늘날 많은 LLM의 기반이 된 최초의 파운데이션 모델 중 하나인 Google의 BERT(트랜스포머의 양방향 인코더 표현)와 OpenAI의 GPT(생성형 사전 학습 트랜스포머) 등이 있습니다.
다음은 트랜스포머 아키텍처에 대한 간략한 개요입니다.
● 인코더는 인풋 시퀀스를 임베딩이라는 숫자 표현으로 변환하여 인풋 시퀀스에서 토큰의 의미와 위치를 포착합니다.
● 트랜스포머는 셀프 어텐션 메커니즘을 통해 위치에 관계 없이 인풋 시퀀스에서 가장 중요한 토큰에 '주의를 집중'할 수 있습니다.
● 디코더는 이 셀프 어텐션 메커니즘과 인코더의 임베딩을 사용하여 통계적으로 가장 확률이 높은 아웃풋 시퀀스를 생성합니다.
비전 인코더는 이미지 또는 동영상 입력에서 색상, 모양, 텍스처와 같은 중요한 시각적 속성을 추출하여 머신러닝 모델이 처리할 수 있는 벡터 임베딩으로 변환합니다.
이전 버전의 VLM은 특징 추출을 위해 컴볼루션 신경망과 같은 딥 러닝 알고리즘을 사용했습니다. 최신 비전 언어 모델에서는 트랜스포머 기반 언어 모델의 요소를 적용하는 비전 트랜스포머(ViT)를 사용합니다.
ViT는 이미지를 패치로 처리하고 언어 변환기의 토큰처럼 시퀀스로 처리합니다. 그런 다음 비전 트랜스포머는 이러한 패치에서 셀프 어텐션을 구현하여 입력 이미지의 트랜스포머 기반 표현을 생성합니다.
비전 언어 모델의 학습 전략에는 비전 인코더와 언어 인코더의 정보를 정렬하고 융합하여 VLM이 이미지와 텍스트의 상관관계를 학습하고 두 가지 양식을 함께 판단할 수 있도록 하는 것이 포함됩니다.
VLM 학습은 일반적으로 다음과 같은 혼합된 접근 방식을 사용합니다.
● 대조 학습
● 마스킹
● 생성형 모델 학습
● 사전 학습된 모델
대비 학습은 두 인코더의 이미지와 텍스트 임베딩을 공동 또는 공유 임베딩 공간에 매핑합니다. VLM은 이미지-텍스트 쌍 데이터 세트를 학습하여 일치하는 쌍의 임베딩 거리는 최소화하고, 일치하지 않는 쌍의 임베딩 거리는 최대화하도록 훈련됩니다.
일반적인 대조 학습 알고리즘은 대조 언어-이미지 사전 학습(CLIP)입니다. CLIP은 인터넷에서 가져온 4억 개의 이미지-캡션 쌍을 사용하여 훈련되었으며 높은 제로샷 분류 정확도를 보였습니다.1
마스킹은 시각적 언어 모델이 입력 텍스트 또는 이미지에서 무작위로 가려진 부분을 예측하는 방법을 학습하는 또 다른 학습 기법입니다. 마스킹된 언어 모델링에서 VLM은 마스킹되지 않은 이미지가 주어지면 텍스트 캡션에서 누락된 단어를 채우는 방법을 학습합니다.
한편, 마스킹된 이미지 모델링에서 VLM은 마스킹되지 않은 캡션이 주어지면 이미지의 숨겨진 픽셀을 재구성하는 방법을 학습합니다.
마스킹을 사용하는 모델의 예로는 FLAVA(기초 언어 및 시각 정렬)가 있습니다. FLAVA는 비전 트랜스포머를 이미지 인코더로 사용하고, 트랜스포머 아키텍처를 언어 인코더와 멀티모달 인코더로 사용합니다.
멀티모달 인코더는 텍스트 정보와 시각적 정보를 통합하기 위해 크로스 어텐션 메커니즘을 적용합니다. FLAVA의 교육에는 대조 학습과 마스크 모델링이 포함됩니다.1
비전 언어 모델을 처음부터 학습시키는 것은 리소스 집약적이고 비용이 많이 들 수 있으므로, 사전 학습된 모델을 활용해서 VLM을 구축할 수 있습니다.
사전 학습된 LLM과 사전 학습된 비전 인코더를 사용할 수 있으며, 이미지의 시각적 표현을 LLM의 입력 공간에 정렬하거나 투영하는 매핑 네트워크 레이어가 추가됩니다.
LLaVA(Large Language and Vision Assistant)는 사전 훈련된 모델에서 개발된 VLM의 예입니다. 이 멀티모달 모델은 Vicuna LLM과 CLIP ViT를 비전 인코더로 사용하고, 선형 프로젝터를 사용하여 아웃풋을 공유 차원 공간으로 병합합니다.1
VLM을 위한 고품질 학습 데이터를 수집하는 것은 번거로운 일일 수도 있지만, 기존 데이터 세트를 사용해 보다 구체적인 다운스트림 작업을 위한 사전 학습, 최적화 및 미세 조정을 수행할 수 있습니다.
예를 들어 ImageNet에는 주석이 달린 이미지가 수백만 개 포함되어 있고, COCO는 대규모 캡션, 객체 감지 및 세분화를 위한 레이블이 지정된 이미지 수천 개를 보유하고 있습니다. LAION 데이터 세트는 수십억 개의 다국어 이미지-텍스트 쌍으로 구성되어 있습니다.
VLM은 시각적 정보와 언어 정보 간의 격차를 해소할 수 있습니다. 이전에는 모달마다 별도의 AI 모델이 필요했지만 이제는 하나의 모델로 통합할 수 있습니다.
VLM은 다양한 비전 언어 작업에 사용할 수 있습니다.
● 캡션 및 요약
● 이미지 생성
● 이미지 검색 및 조회
● 이미지 분할
● 객체 감지
● 시각적 질의 응답(VQA)
비전 언어 모델은 자세한 이미지 캡션 또는 설명을 생성할 수 있습니다. 또한 의료 시설의 의료 이미지, 제조 시설의 장비 수리 차트와 같은 문서에서 동영상 및 시각적 정보를 요약할 수도 있습니다.
DALL-E, Imagen, Midjourney 및 Stable Diffusion과 같은 텍스트-이미지 생성기는 텍스트 콘텐츠와 함께 사용할 미술 작품 또는 이미지를 만드는 데 도움이 될 수 있습니다. 또한 기업에서는 설계 및 프로토타이핑 단계에서 이러한 도구를 사용하여 제품 아이디어를 시각화할 수 있습니다.
VLM은 대규모 이미지 갤러리 또는 동영상 데이터베이스를 검색하고 자연어 쿼리를 기반으로 관련 사진 또는 동영상을 조회할 수 있습니다. 이를 통해 전자 상거래 웹사이트의 쇼핑객이 특정 상품을 찾거나 방대한 카탈로그를 탐색하는 데 도움을 주어 사용자 경험을 개선할 수 있습니다.
시각적 언어 모델은 이미지에서 학습하고 추출한 공간적 특징을 기반으로 이미지를 세그먼트로 분할할 수 있습니다. 그러면 VLM이 해당 세그먼트에 대한 텍스트 설명을 제공할 수 있습니다.
또한 경계 상자를 만들어 개체를 지역화하거나, 레이블 또는 색상 강조 표시와 같은 다른 형태의 주석을 제공하여 쿼리와 관련된 이미지의 섹션을 지정할 수도 있습니다.
이는 공장 현장의 이미지나 동영상을 분석하여 잠재적인 장비 결함을 실시간으로 감지하는 등의 예측적 유지 보수에 유용하게 사용할 수 있습니다.
비전 언어 모델은 이미지 내의 객체를 인식 및 분류할 수 있고, 다른 시각적 요소에를 바탕으로 객체의 상대적인 위치와 같은 맥락적 설명을 제공할 수 있습니다.
객체 감지는 로봇 공학에 사용되어 로봇이 주변 환경을 더 잘 이해하고 시각적 지시를 이해할 수 있도록 합니다.
비전 언어 모델은 빠르게 발전하고 있으며, 현재의 고급 LLM만큼 널리 보급될 수 있는 잠재력을 가지고 있습니다.
다음은 인기 있는 VLM의 몇 가지 예입니다.
● DeepSeek-VL2
● Gemini 2.0 Flash
● GPT-4o
● Llama 3.2
● NVLM
● Qwen 2.5-VL
Gemini 2.0 Flash는 Google Gemini 모델 제품군의 일부입니다. 오디오, 이미지, 텍스트 및 동영상을 입력할 수 있으며 출력은 텍스트만 가능합니다. 이미지 생성 기능이 곧 출시될 예정입니다.
OpenAI의 GPT-4o는 오디오, 시각 및 텍스트 데이터 전반에 걸쳐 학습된 단일 모델입니다. 오디오, 이미지, 텍스트 및 동영상 입력을 혼합하여 허용하고, 동일한 신경망이 모든 입력과 아웃풋을 처리하므로 오디오, 이미지 및 텍스트 아웃풋을 원하는 대로 조합하여 생성할 수 있습니다.
소형 버전인 GPT-4o mini는 이미지와 텍스트 입력을 모두 지원하고 텍스트 출력을 생성합니다.
Llama 3.2 오픈 소스 모델에는 각기 110억 개 및 900억 개의 매개변수를 가진 VLM 2개가 포함되어 있습니다. 텍스트와 이미지의 조합을 입력할 수 있으며, 텍스트만 출력할 수 있습니다.3
Meta에 따르면 VLM 아키텍처는 ViT 이미지 인코더, 동영상 어댑터 및 이미지 어댑터로 구성됩니다.4 별도로 학습된 이미지 어댑터에는 사전 학습된 Llama 3.1 LLM에 이미지 인코더 표현을 공급하는 일련의 크로스 어텐션 레이어가 있습니다.3
NVLM은 NVIDIA의 멀티모달 모델 제품군입니다. NVLM-D는 이미지 토큰을 LLM 디코더에 직접 공급하는 디코더 전용 모델입니다. NVLM-X는 크로스 어텐션을 사용하여 토큰을 처리하며 고해상도 이미지를 처리하는 데 더욱 효율적입니다.
NVLM-H는 디코더 전용 및 크로스 어텐션 접근 방식을 결합하는 하이브리드 아키텍처를 채택하여 계산 효율성과 추론 능력을 개선합니다.5
Qwen 2.5-VL은 중국 클라우드 컴퓨팅 회사 Alibaba Cloud의 플래그십 비전 언어 모델입니다. 30억 개, 70억 개, 720억 개 매개변수 크기로 제공됩니다.
이 모델은 Vit 비전 인코더와 Qwen 2.5 LLM을 사용합니다. 한 시간이 넘는 분량의 동영상을 이해할 수 있고 데스크톱과 스마트폰 인터페이스를 탐색할 수 있습니다.
LLM과 마찬가지로 VLM에도 자체 벤치마크가 있습니다. 각 벤치마크에는 자체 리더보드가 있을 수 있지만, Hugging Face에서 호스팅되는 OpenVLM Leaderboard처럼 다양한 메트릭을 기반으로 오픈 소스 비전 언어 모델의 순위를 매기는 독립 리더보드도 있습니다.
다음은 시각 언어 모델에 대한 몇 가지 일반적인 벤치마크입니다.
● MathVista는 시각적 수학적 추론의 벤치마크입니다.
● MMBench에는 객체 위치 파악, 광학 문자 인식(OCR) 등 여러 평가 차원을 다루는 객관식 질문 모음이 있습니다.
● MMMU(대규모 다분야 다중 모드 이해)에는 지식, 지각 및 추론 능력을 측정하기 위해 다양한 주제로 구성된 다중 모드 객관식 과제가 포함되어 있습니다.
● MM-Vet는 통합, 언어 생성, 공간 인식 등의 다양한 VLM 능력을 평가합니다.
● OCRBench는 VLM의 OCR 기능에 중점을 둡니다. 문서 중심 VQA, 필기 수식 인식, 핵심 정보 추출, 텍스트 인식 및 장면 텍스트 중심 VQA의 5가지 구성 요소로 이루어져 있습니다.
● VQA는 가장 초기의 VLM 벤치마크 중 하나입니다. 이 데이터 세트에는 이미지에 대한 개방형 질문이 포함되어 있습니다. 다른 VQA 파생물에는 GQA(이미지 장면 그래프에대한 질의 응답), OK-VQA(시각적 질문 답변에 외부 지식 필요), ScienceQA(과학 질문 답변) 및 TextVQA(이미지의 텍스트를 기반으로 하는 시각적 추론)가 포함됩니다.
VLM을 벤치마킹하는 데는 시간이 많이 걸릴 수 있지만, 몇 가지 도구를 사용하면 프로세스를 간소화할 수 있습니다. VLMEvalKit은 VLM에 대한 오픈 소스 평가 툴킷으로, 명령 한 번으로 VLM을 평가할 수 있습니다. 또 다른 평가 모음인 LMMs-Eval 역시 평가를 위한 명령줄 인터페이스를 제공합니다.
모든 AI 시스템과 마찬가지로 VLM도 여전히 AI의 위험에 대처해야 합니다. 기업은 비전 언어 모델을 내부 워크플로에 통합하거나 상업적 애플리케이션에 구현할 때 이 점을 염두에 두어야 합니다.
다음은 VLM과 관련된 몇 가지 과제입니다.
● 편향
● 비용 및 복잡성
● 일반화
● 할루시네이션
시각 언어 모델은 학습 데이터에 포함된 현실 세계의 편향이나 기반이 되는 사전 학습 모델의 편향을 학습할 수 있습니다. 다양한 데이터 소스를 사용하고, 프로세스 전반에 걸쳐 사람의 감독을 통합하면 편향을 완화하는 데 도움이 될 수 있습니다.
비전 모델과 언어 모델은 그 자체로도 이미 복잡하기 때문에 병합하면 복잡성이 더욱 증가할 수 있습니다. 이러한 복잡성으로 인해 컴퓨팅 리소스가 더 많이 필요하게 되어 VLM을 대규모로 배포하기가 어렵습니다. 기업은 이러한 모델을 개발, 교육 및 배포하는 데 필요한 리소스에 투자할 준비가 되어 있어야 합니다.
시각 언어 모델은 AI 할루시네이션에 취약할 수 있습니다. 이러한 모델의 결과를 검증하는 것은 모델이 실제로 정확한지 확인하기 위한 중요한 단계입니다.
모든 링크는 ibm.com 외부에 있습니다.
1 비전 언어 모델링 소개, ArXiv, 2024년 5월 27일.
2 DeepSeek-VL2: 고급 멀티모달 이해를 위한 전문가 조합 비전 언어 모델, GitHub, 2024년 12월 13일.
3 모델 정보, GitHub, 2024년 9월 30일.
4 Llama 3 모델군 , arXiv, 2024년 11월 23일.
5 NVLM: 개방형 프론티어급 멀티모달 LLM, arXiv, 2024년 10월 22일.
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.