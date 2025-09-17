광학 문자 인식(OCR)에 대한 VLM 기반의 접근 방식 대부분이 대규모 범용 모델을 작업에 맞춰 조정하는 것을 목표로 하는 것과 달리, Granite-Docling은 정확하고 효율적인 문서 변환에 특화되었습니다. Granite-Docling은 초소형 258M 매개변수에서도 규모가 몇 배는 더 큰 시스템에 맞먹는 성능을 보여주어 매우 비용 효율적입니다. 이 모델은 단순한 텍스트 추출을 훨씬 넘어 인라인 및 부동 수학과 코드를 모두 처리하고 테이블 구조를 인식하는 데 탁월하며, 원본 문서의 레이아웃과 구조 를 보존합니다. 기존 OCR 모델이 문서를 Markdown으로 직접 변환하고 소스 콘텐츠를 연결하지 못하는 것과 다르게, 복잡한 구조 요소를 충실하게 번역하는 Granite-Docling의 독자적인 방식은 다운스트림 RAG 애플리케이션에 적합합니다.

Granite-Docling을 개발한 주인공은 이번 달 초 1주년을 맞이한 유명한 오픈 소스 Docling 라이브러리 제작진입니다. Docling은 문서 변환을 위한 도구, 모델, 명령줄 인터페이스를 제공하고 에이전틱 AI 워크플로와의 플러그 앤 플레이 통합을 제공합니다. Docling 라이브러리는 맞춤 설정 가능한 앙상블 파이프라인을 구현하는 반면, Granite-Docling은 문서를 한 번에 구문 분석하고 처리하는 단일 258M 매개변수 VLM입니다.

새로운 Granite-Docling은 IBM Research가 2025년 3월에 Hugging Face와 협력하여 출시한 실험적인 SmolDocling-256M 프리뷰 모델의 제품 버전입니다. Granite-Docling은 SmolDocling에 사용되는 SmolLM-2 언어 백본을 Granite 3 기반 아키텍처로 대체하고 SigLIP 비주얼 인코더를 업데이트된 SigLIP2로 대체하지만, 그 외에는 SmolDocling의 일반적인 방법론을 유지하되 더 뛰어난 성능을 제공합니다.

무엇보다도 Granite-Docling은 페이지의 특정 지점에서 동일한 토큰을 반복하는 루프에 갇히는 경향 등 SmolDocling-256M-preview에 존재하는 불안정성을 일부 해소합니다. 어느 정도의 불완정성은 어느 모델에나 존재하지만, 거대 기업에서 안정적으로 사용되려면 오류 각각이 워크플로 자체를 탈선시키지 않으리라는 확신이 필요합니다. IBM Research는 광범위한 데이터 세트 필터링 및 정리를 통해 Granite-Docling의 불안정성을 완화하고, 주석이 일관되지 않거나 누락된 샘플과 더불어 불규칙성이 모호성을 유발해 생산성을 떨어뜨리는 샘플을 제거했습니다.

이전의 SmolDocling과 마찬가지로 Granite-Docling은 경쟁사 제품 대부분이 제공하는 컴퓨팅 요건이 일부만 갖춰져도 문서 콘텐츠와 구조를 정확하게 포착합니다. Granite-Docling-258M의 Hugging Face 모델 카드는 일반적인 문서 이해 성능 평가를 제공합니다.