text extraction

Extraia texto para converter documentos comerciais de alta qualidade em um formato de arquivo mais simples que possa ser usado por modelos de IA ou para localizar e isolar informações importantes de documentos como contratos.

A extração de texto é poderosa para casos de uso em que você deseja extrair entidades específicas ou categorias de informações de um documento com base na estrutura do documento.

Compatibilidade e especificações

Plataformas em nuvem

Tipos de arquivos de entrada suportados

Você pode extrair texto de documentos em diferentes idiomas ou de um documento que tenha uma mistura de vários idiomas. Extraia texto dos seguintes tipos de arquivo:

BMP
DOC
DOCX
GIF
HTML
JFIF
JPG
Marcação
PDF
PNG
PPT
PPTX
TIFF
XLSX

Observação: você não pode usar a API de extração de texto para extrair dados de pares chave-valor de documentos XLSX.

Tipos de arquivos de saída suportados

Você pode armazenar o texto extraído nos seguintes formatos de arquivo:

JSON
Marcação
HTML
TXT

Para obter detalhes sobre o conteúdo do resultado extraído em cada tipo de arquivo de saída, consulte Especificação do formato de saída.

Tipos de armazenamento suportados

Você pode armazenar seus documentos de entrada nos seguintes tipos de armazenamento conectados:

IBM Cloud Object Storage
Amazon S3
Qualquer armazenamento genérico compatível com o site Amazon S3
Caixa
IBM watsonx.data SharePoint
IBM FileNet P8

Nota:A conexão IBM FileNet P8 está disponível apenas no data center de Toronto e para um provedor de serviços de nuvem gerenciada (MCSP).

Você pode armazenar os arquivos de saída da extração de texto nos seguintes tipos de armazenamento conectados:

IBM Cloud Object Storage
Amazon S3
Qualquer armazenamento genérico compatível com o site Amazon S3
Caixa

Nota:A API de extração de texto é certificada para uso com o armazenamento genérico de objetos compatível com Amazon S3 MinIO.

Para obter detalhes sobre como criar uma conexão com os vários tipos de armazenamentos de dados em seu projeto, consulte Conectores para watsonx.ai.

Modelos de fundação com suporte

A API de extração de texto é certificada para usar o modelo mistral-small-3-1-24b-instruct-2503 para extração de pares de valores-chave e verbalização de imagens. Você também pode usar modelos alternativos que podem processar entradas visuais e responder em um formato JSON, como:

llama-4-maverick-17b-128e-instruct-fp8
mistral-medium-2505

Para obter detalhes do modelo de fundação, consulte Modelos de fundação compatíveis.

Restrições

Você pode extrair texto de tipos específicos de arquivos de entrada e armazenar a saída extraída em determinados tipos de arquivos. Nem todo tipo de arquivo de entrada pode ser extraído para todos os formatos de saída suportados. A tabela a seguir fornece detalhes sobre qual tipo de arquivo de entrada é compatível com os vários formatos de saída:

Compatibilidade do tipo de arquivo de entrada e do formato de saída extraído para a API de extração de texto
Tipo de Arquivo de Entrada	Formatos de arquivo de saída compatíveis
PDF programático	Todos os formatos
PDF digitalizado	Todos os formatos
Imagem	Todos os formatos
Arquivo Microsoft PowerPoint	Todos os formatos
Arquivo do Microsoft Word	Todos os formatos
Marcação	Todos os formatos
Arquivo do Microsoft Excel	Markdown, JSON, texto simples
Arquivo HTML	Markdown, JSON, texto simples

A verbalização de imagens e a extração de pares chave-valor só são suportadas para documentos em inglês.
Os resultados de uma solicitação de extração de texto que processa pares de valores-chave só estão disponíveis no formato de saída assembly . Os pares de valores-chave não são extraídos nos formatos de saída HTML, Markdown ou texto simples.

Formas de trabalho

Você pode extrair texto de documentos armazenados em seu projeto watsonx.ai com esses métodos programáticos:

API REST
Python
Node.js

Para configurar o acesso para usar a API de extração de texto, consulte os Recursos do desenvolvedor.

API de REST

Você pode extrair texto de arquivos em IBM watsonx.ai programaticamente usando o método de extração de texto da API REST de watsonx.ai.

Para obter detalhes sobre como personalizar uma solicitação de extração de texto, consulte Parâmetros de extração de texto.

Para obter detalhes sobre o método da API, consulte a documentação de referência da API watsonx.ai.

Python

Você pode extrair texto de arquivos em IBM watsonx.ai programaticamente usando a biblioteca Python.

Consulte a classe TextExtractionsV2 da biblioteca watsonx.ai Python.

Experimente o notebook de amostra: Use o serviço watsonx.ai Text Extraction V2 para extrair o texto do arquivo.

Node.js

Você pode extrair texto de arquivos em IBM watsonx.ai programaticamente usando o Node.js SDK. Para obter mais informações, consulte os recursos a seguir:

Para saber mais, consulte o exemplo de código.