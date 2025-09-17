오늘 IBM은 레이아웃, 표, 방정식, 목록 등을 완전히 보존하면서 문서를 기계가 읽을 수 있는 형식으로 변환해주는 초소형 최첨단 오픈 소스 비전 언어 모델(VLM) Granite-Docling 258M을 출시합니다. Hugging Face에서 표준 Apache 2.0 라이선스를 통해 사용할 수 있습니다.
광학 문자 인식(OCR)에 대한 VLM 기반의 접근 방식 대부분이 대규모 범용 모델을 작업에 맞춰 조정하는 것을 목표로 하는 것과 달리, Granite-Docling은 정확하고 효율적인 문서 변환에 특화되었습니다. Granite-Docling은 초소형 258M 매개변수에서도 규모가 몇 배는 더 큰 시스템에 맞먹는 성능을 보여주어 매우 비용 효율적입니다. 이 모델은 단순한 텍스트 추출을 훨씬 넘어 인라인 및 부동 수학과 코드를 모두 처리하고 테이블 구조를 인식하는 데 탁월하며, 원본 문서의 레이아웃과 구조 를 보존합니다. 기존 OCR 모델이 문서를 Markdown으로 직접 변환하고 소스 콘텐츠를 연결하지 못하는 것과 다르게, 복잡한 구조 요소를 충실하게 번역하는 Granite-Docling의 독자적인 방식은 다운스트림 RAG 애플리케이션에 적합합니다.
Granite-Docling을 개발한 주인공은 이번 달 초 1주년을 맞이한 유명한 오픈 소스 Docling 라이브러리 제작진입니다. Docling은 문서 변환을 위한 도구, 모델, 명령줄 인터페이스를 제공하고 에이전틱 AI 워크플로와의 플러그 앤 플레이 통합을 제공합니다. Docling 라이브러리는 맞춤 설정 가능한 앙상블 파이프라인을 구현하는 반면, Granite-Docling은 문서를 한 번에 구문 분석하고 처리하는 단일 258M 매개변수 VLM입니다.
새로운 Granite-Docling은 IBM Research가 2025년 3월에 Hugging Face와 협력하여 출시한 실험적인 SmolDocling-256M 프리뷰 모델의 제품 버전입니다. Granite-Docling은 SmolDocling에 사용되는 SmolLM-2 언어 백본을 Granite 3 기반 아키텍처로 대체하고 SigLIP 비주얼 인코더를 업데이트된 SigLIP2로 대체하지만, 그 외에는 SmolDocling의 일반적인 방법론을 유지하되 더 뛰어난 성능을 제공합니다.
무엇보다도 Granite-Docling은 페이지의 특정 지점에서 동일한 토큰을 반복하는 루프에 갇히는 경향 등 SmolDocling-256M-preview에 존재하는 불안정성을 일부 해소합니다. 어느 정도의 불완정성은 어느 모델에나 존재하지만, 거대 기업에서 안정적으로 사용되려면 오류 각각이 워크플로 자체를 탈선시키지 않으리라는 확신이 필요합니다. IBM Research는 광범위한 데이터 세트 필터링 및 정리를 통해 Granite-Docling의 불안정성을 완화하고, 주석이 일관되지 않거나 누락된 샘플과 더불어 불규칙성이 모호성을 유발해 생산성을 떨어뜨리는 샘플을 제거했습니다.
이전의 SmolDocling과 마찬가지로 Granite-Docling은 경쟁사 제품 대부분이 제공하는 컴퓨팅 요건이 일부만 갖춰져도 문서 콘텐츠와 구조를 정확하게 포착합니다. Granite-Docling-258M의 Hugging Face 모델 카드는 일반적인 문서 이해 성능 평가를 제공합니다.
Granite-Docling의 중심 축을 이루는 기능은 DocTags입니다. 이는 차트, 표, 양식, 코드, 방정식, 각주, 캡션 등 모든 페이지 요소뿐만 아니라 문서 레이아웃 내 위치와 같은 모든 페이지 요소를 캡처하고 설명하는 범용 마크업 형식입니다.
HTML이나 Markdown 같은 범용 마크업 언어는 문서 변환과 같은 이미지-시퀀스 작업을 위해 설계되지 않았으며 PDF, 슬라이드 데크, 인포그래픽의 공통 요소 다수를 정확하게 렌더링하는 데 필요한 매우 구체적인 속성을 제한된 어휘로 설명합니다. 따라서 일반적인 마크업 언어로 직접 변환을 하면 보통 손실이 많고 모호하여, 토큰 합계를 늘리고 구조적 요소를 보존하는 기능이 제한됩니다.
DocTags는 텍스트 콘텐츠와 문서 구조를 명시적으로 분리하여 혼란과 토큰 사용을 최소화하는, 모호하지 않은 태그 및 규칙의 구조화된 어휘를 정의합니다. 이를 통해 Granite-Docling은 각 요소를 분리하고 페이지의 특정 위치를 설명한 다음 그 안에서 OCR을 수행합니다. 또한 적절한 읽기 순서나 계층 구조와 같은 서로 다른 요소 간의 관계를 간결하게 설명합니다(예: 캡션을 해당 그림/표에 연결).
DocTags는 LLM 가독성에 최적화되어 있습니다. Granite-Docling은 원본 문서를 DocTags로 산출하고 이를 Markdown, JSON 또는 HTML로 직접 쉽게 변환(또는 Docling 라이브러리 파이프라인에 공급)할 수 있어 독점 문서를 고품질 데이터 세트로 변환하는 프로세스를 간소화할 수 있습니다. 다른 LLM을 미세 조정하거나 검색 증강 생성(RAG)을 통해 LLM 응답을 향상할 수 있습니다.
SmolDocling-256-preview는 영어로 말뭉치 학습을 했지만 표준 라틴어 문자를 사용하는 모든 언어로 작성된 문서를 합리적으로 처리할 수 있습니다. 결국 모델은 문서에서 구문을 분석하고 글자를 전사할 뿐, 내용을 이해하지는 못할 수도 있습니다. 하지만 라틴 문자를 사용하지 않는 언어는 당연히 해당되지 않기에, SmolDocling 사용에 제한을 받는 지역이 세계 각지에 있습니다.
IBM은 Granite-Docling을 최대한 보편적으로 쓰일 수 있게 만들고자 합니다. 이를 위해 Granite-Docling을 아랍어, 중국어, 일본어 등의 추가 타깃 언어로 다국어 실험 기능을 제공합니다. 이 실험의 목표는 Granite-Docling을 세계에서 널리 사용되는 더 많은 문자로 확장하는 것입니다.
이러한 다국어 기능은 초기 실험 단계에 있으며 아직 엔터프라이즈급 성능이나 안정성을 검증 받지 못했지만, 이는 Granite-Docling의 글로벌 활용 확대를 위한 필수적인 단계입니다. Granite-Docling의 다국어 기능 확장 및 강화는 향후 Docling 에코시스템의 핵심 우선순위가 될 것입니다.
Granite-Docling은 Docling 라이브러리를 보완하는 목적이지, 대체하거나 교체하는 개념이 아닙니다. 각각에는 고유한 강점과 사용 사례가 있습니다. 최적의 결과를 얻으려면 Docling 프레임워크 안에서 Granite-Docling을 사용하는 것이 좋습니다.
Docling 라이브러리는 문서 변환을 위해 Tableformers, 코드 파서, 방정식 파서, 비전 모델, ASR 모델, 전용 OCR 모델, 일반 LLM과 같은 특수 모델에서 앙상블 파이프라인을 구축할 수 있는 완전 맞춤형 소프트웨어 계층입니다. Granite-Docling 모델 자체는 Docling에서 더 큰 VLM 파이프라인의 일부로 사용할 수 있습니다. Docling 라이브러리의 툴킷은 벡터 데이터베이스 또는 에이전트 워크플로와 같은 외부 서비스와의 통합에도 직접적인 도움을 줍니다. 이렇게 Docling 라이브러리는 전반적으로 더 큰 맞춤 설정, 다양한 모델 중에서 목적에 맞게 선택할 수 있는 기능을 제공합니다.
Granite-Docling은 단일 목적 모델 여러 개를 하나의 작은 VLM로 대체하여 Docling 파이프라인에 유용한 추가 기능을 제공합니다. 이 VLM은 자연어, 코드나 복잡한 방정식 같은 데이터 양식에 대한 다국어 구조와 레이아웃 보존 구문 분석 등의 핵심 기능들을 통합합니다.
이론적으로 문서를 한 번에 변환하면 오류 누적 가능성이 줄어듭니다. 예를 들어 앙상블 파이프라인 초기 단계에서 테이블 위치가 잘못되면 이후 단계에서 테이블의 내용을 추출하는 기능이 왜곡되거나 탈선할 수 있는 반면, Granite-Docling은 잘못된 위치에 있는 테이블도 올바르게 재현합니다. 때문에 더 큰 Docling 프레임워크 안에서 이 모델을 사용하면 모델 자체의 놀라운 정확성과 비용 효율성에, Docling 라이브러리의 맞춤 설정, 통합, 오류 처리 기능을 함께 사용할 수 있습니다.
Granite-Docling과 Docling 라이브러리 개발은 활발한 Docling 커뮤니티의 피드백을 받으며 진행되어 왔으며 앞으로도 그러할 것입니다. 이전의 SmolDocling에서도 그랬듯, IBM Research가 새로운 Granite-Docling 모델을 출시하는 것은 앞으로의 릴리스에서 Docling 기능을 지속적으로 개선하고 확장하는 데 길잡이가 될 커뮤니티 피드백을 수집하기 위함입니다.
Docling 관련 진행 중 & 예정된 이니셔티브:
이제 Hugging Face에서 표준 Apache 2.0 라이선스를 통해 Granite-Docling-258M을 사용할 수 있습니다. 다양한 문서 이해 벤치마크에 대한 성능 평가와 Docling 파이프라인 안에서의 모델 실행한 지침 등 Granite-Docling에 관한 자세한 내용은 Granite-Docling의 Hugging Face 모델 카드를 참조하세요.
docling.ai나 다음 튜토리얼 및 자료에서도 Docling 및 Granite-Docling에 대해 알아볼 수 있습니다.
IBM이 2025년 Gartner Magic Quadrant™ 데이터 과학 및 머신 러닝 플랫폼 부문에서 리더로 선정된 이유를 알아보세요.
오픈 소스 소규모 언어 모델로, 경쟁력 있는 가격으로 엔터프라이즈급 성능 및 투명성을 제공합니다.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI로 핵심 워크플로와 운영을 새롭게 혁신해 경험과 실시간 의사 결정, 비즈니스 가치를 극대화하세요.