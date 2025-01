Desde escrita criativa até RAG, a IA generativa é, em última análise, um mecanismo que opera com dados. O verdadeiro potencial dos grandes modelos de linguagem não pode ser alcançado se parte desses dados estiver presa em formatos que os modelos não conseguem reconhecer. Os LLMs são relativamente novos, mas o problema não é: como um título do Washington Post de uma década atrás proclamava, "as soluções para todos os nossos problemas podem estar enterradas em PDFs que ninguém lê."

Por isso a IBM Deep Search desenvolveu o Docling, ferramenta poderosa de análise de documentos em formatos populares como PDF, DOCX, imagens, PPTX, XLSX, HTML e AsciiDoc, convertendo-os em formatos compatíveis com modelos, como Markdown ou JSON. Isso possibilita que esses documentos (e as informações neles contidas) sejam facilmente acessados por modelos como o Granite para fins de RAG e outros processos. O Docling possibilita a integração fácil com frameworks como LlamaIndex, LangChain e Bee, permitindo que desenvolvedores o incorporem ao ecossistema preferido.

Com código aberto sob a permissiva licença MIT, o Docling é uma solução sofisticada que vai além da simples extração de texto por reconhecimento óptico de caracteres (OCR). Como William Caban, da Red Hat, explica, o Docling integra várias técnicas de processamento prévio baseadas em contexto e elementos: se uma tabela se estende por várias páginas, o Docling sabe extrair a tabela como uma única tabela; se uma página contém texto principal, imagens e tabelas, cada elemento é extraído separado respeitando o contexto original.

A equipe por trás do Docling está trabalhando em recursos adicionais, incluindo extração de equações, códigos e metadados. Para ver o Docling em ação, consulte este tutorial para criar um sistema de perguntas e respostas com documentos com Docling e Granite.