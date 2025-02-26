DoclingはPDFドキュメントをダウンロードして処理するので、ドキュメントに含まれるテキストと画像を取得できます。PDFには、テキスト、表、グラフ、画像など、さまざまなデータ・タイプがあります。

from docling.document_converter import DocumentConverter, PdfFormatOption

from docling.datamodel.base_models import InputFormat

from docling.datamodel.pipeline_options import PdfPipelineOptions



pdf_pipeline_options = PdfPipelineOptions(

do_ocr=False,

generate_picture_images=True,

)

format_options = {

InputFormat.PDF: PdfFormatOption(pipeline_options=pdf_pipeline_options),

}

converter = DocumentConverter(format_options=format_options)



sources = [

“https://midwestfoodbank.org/images/AR_2020_WEB2.pdf”,

]

conversions = { source: converter.convert(source=source).document for source in sources }

文書が処理されたら、文書内のテキスト要素をさらに処理します。使用している埋め込みモデルに適したサイズに分割します。LangChainドキュメントのリストは、テキスト・チャンクから作成されます。

from docling_core.transforms.chunker.hybrid_chunker import HybridChunker

from docling_core.types.doc.document import TableItem

from langchain_core.documents import Document



doc_id = 0

texts: list[Document] = []

for source, docling_document in conversions.items():

for chunk in HybridChunker(tokenizer=embeddings_tokenizer).chunk(docling_document):

items = chunk.meta.doc_items

if len(items) == 1 and isinstance(items[0], TableItem):

continue # we will process tables later

refs = “ “.join(map(lambda item: item.get_ref().cref, items))

print(refs)

text = chunk.text

document = Document(

page_content=text,

metadata={

“doc_id”: (doc_id:=doc_id+1),

“source”: source,

“ref”: refs,

},

)

texts.append(document)



print(f”{len(texts)} text document chunks created”)

次に、文書内のテーブルを処理します。テーブル・データをマークダウン形式に変換して、言語モデルに渡します。LangChainドキュメントのリストは、テーブルのマークダウン・レンダリングから作成されます。

from docling_core.types.doc.labels import DocItemLabel



doc_id = len(texts)

tables: list[Document] = []

for source, docling_document in conversions.items():

for table in docling_document.tables:

if table.label in [DocItemLabel.TABLE]:

ref = table.get_ref().cref

print(ref)

text = table.export_to_markdown()

document = Document(

page_content=text,

metadata={

“doc_id”: (doc_id:=doc_id+1),

“source”: source,

“ref”: ref

},

)

tables.append(document)





print(f”{len(tables)} table documents created”)

最後に、文書内の画像を処理します。ここでは、ビジョン言語モデルを使用して、画像の内容を理解します。この例では、画像内のテキスト情報に注目します。さまざまなプロンプトを試して、成果がどのように改善するかを確認することをお勧めします。

注：画像の数とビジョン言語モデルを実行するサービスによっては、画像の処理に非常に長い時間がかかる場合があります。

import base64

import io

import PIL.Image

import PIL.ImageOps

from IPython.display import display



def encode_image(image: PIL.Image.Image, format: str = “png”) -> str:

image = PIL.ImageOps.exif_transpose(image) or image

image = image.convert(“RGB”)



buffer = io.BytesIO()

image.save(buffer, format)

encoding = base64.b64encode(buffer.getvalue()).decode(“utf-8”)

uri = f”data:image/{format};base64,{encoding}”

return uri



# Feel free to experiment with this prompt

image_prompt = “If the image contains text, explain the text in the image.”

conversation = [

{

“role”: “user”,

“content”: [

{“type”: “image”},

{“type”: “text”, “text”: image_prompt},

],

},

]

vision_prompt = vision_processor.apply_chat_template(

conversation=conversation,

add_generation_prompt=True,

)

pictures: list[Document] = []

doc_id = len(texts) + len(tables)

for source, docling_document in conversions.items():

for picture in docling_document.pictures:

ref = picture.get_ref().cref

print(ref)

image = picture.get_image(docling_document)

if image:

text = vision_model.invoke(vision_prompt, image=encode_image(image))

document = Document(

page_content=text,

metadata={

“doc_id”: (doc_id:=doc_id+1),

“source”: source,

“ref”: ref,

},

)

pictures.append(document)



print(f”{len(pictures)} image descriptions created”)

その後、入力したドキュメントから作成されたLangChainドキュメントを表示できます。

import itertools

from docling_core.types.doc.document import RefItem



# Print all created documents

for document in itertools.chain(texts, tables):

print(f”Document ID: {document.metadata[‘doc_id’]}”)

print(f”Source: {document.metadata[‘source’]}”)

print(f”Content:

{document.page_content}”)

print(“=” * 80) # Separator for clarity



for document in pictures:

print(f”Document ID: {document.metadata[‘doc_id’]}”)

source = document.metadata[‘source’]

print(f”Source: {source}”)

print(f”Content:

{document.page_content}”)

docling_document = conversions[source]

ref = document.metadata[‘ref’]

picture = RefItem(cref=ref).resolve(docling_document)

image = picture.get_image(docling_document)

print(“Image:”)

display(image)

print(“=” * 80) # Separator for clarity