text extraction
Extraia texto para converter documentos comerciais de alta qualidade em um formato de arquivo mais simples que possa ser usado por modelos de IA ou para localizar e isolar informações importantes de documentos como contratos.
A extração de texto é poderosa para casos de uso em que você deseja extrair entidades específicas ou categorias de informações de um documento com base na estrutura do documento.
Compatibilidade e especificações
- Plataformas em nuvem
- Tipos de arquivos de entrada suportados
Você pode extrair texto de documentos em diferentes idiomas ou de um documento que tenha uma mistura de vários idiomas. Extraia texto dos seguintes tipos de arquivo:
- BMP
- DOC
- DOCX
- GIF
- HTML
- JFIF
- JPG
- Marcação
- PNG
- PPT
- PPTX
- TIFF
- XLSX
Observação: você não pode usar a API de extração de texto para extrair dados de pares chave-valor de documentos XLSX.- Tipos de arquivos de saída suportados
Você pode armazenar o texto extraído nos seguintes formatos de arquivo:
- JSON
- Marcação
- HTML
- TXT
Para obter detalhes sobre o conteúdo do resultado extraído em cada tipo de arquivo de saída, consulte Especificação do formato de saída.
- Tipos de armazenamento suportados
Você pode armazenar seus documentos de entrada nos seguintes tipos de armazenamento conectados:
IBM Cloud Object Storage
Amazon S3
Qualquer armazenamento genérico compatível com o site Amazon S3
Caixa
IBM watsonx.data SharePoint
IBM FileNet P8
Nota:A conexão IBM FileNet P8 está disponível apenas no data center de Toronto e para um provedor de serviços de nuvem gerenciada (MCSP).
Você pode armazenar os arquivos de saída da extração de texto nos seguintes tipos de armazenamento conectados:
IBM Cloud Object Storage
Amazon S3
Qualquer armazenamento genérico compatível com o site Amazon S3
Caixa
Nota:A API de extração de texto é certificada para uso com o armazenamento genérico de objetos compatível com Amazon S3 MinIO.
Para obter detalhes sobre como criar uma conexão com os vários tipos de armazenamentos de dados em seu projeto, consulte Conectores para watsonx.ai.
- Modelos de fundação com suporte
A API de extração de texto é certificada para usar o modelo
mistral-small-3-1-24b-instruct-2503para extração de pares de valores-chave e verbalização de imagens. Você também pode usar modelos alternativos que podem processar entradas visuais e responder em um formato JSON, como:llama-4-maverick-17b-128e-instruct-fp8mistral-medium-2505
Para obter detalhes do modelo de fundação, consulte Modelos de fundação compatíveis.
Restrições
Você pode extrair texto de tipos específicos de arquivos de entrada e armazenar a saída extraída em determinados tipos de arquivos. Nem todo tipo de arquivo de entrada pode ser extraído para todos os formatos de saída suportados. A tabela a seguir fornece detalhes sobre qual tipo de arquivo de entrada é compatível com os vários formatos de saída:
Compatibilidade do tipo de arquivo de entrada e do formato de saída extraído para a API de extração de texto Tipo de Arquivo de Entrada Formatos de arquivo de saída compatíveis PDF programático Todos os formatos PDF digitalizado Todos os formatos Imagem Todos os formatos Arquivo Microsoft PowerPoint Todos os formatos Arquivo do Microsoft Word Todos os formatos Marcação Todos os formatos Arquivo do Microsoft Excel Markdown, JSON, texto simples Arquivo HTML Markdown, JSON, texto simples A verbalização de imagens e a extração de pares chave-valor só são suportadas para documentos em inglês.
Os resultados de uma solicitação de extração de texto que processa pares de valores-chave só estão disponíveis no formato de saída
assembly. Os pares de valores-chave não são extraídos nos formatos de saída HTML, Markdown ou texto simples.
Formas de trabalho
Você pode extrair texto de documentos armazenados em seu projeto watsonx.ai com esses métodos programáticos:
Para configurar o acesso para usar a API de extração de texto, consulte os Recursos do desenvolvedor.
API de REST
Você pode extrair texto de arquivos em IBM watsonx.ai programaticamente usando o método de extração de texto da API REST de watsonx.ai.
Para obter detalhes sobre como personalizar uma solicitação de extração de texto, consulte Parâmetros de extração de texto.
Para obter detalhes sobre o método da API, consulte a documentação de referência da API watsonx.ai.
Python
Você pode extrair texto de arquivos em IBM watsonx.ai programaticamente usando a biblioteca Python.
Consulte a classe TextExtractionsV2 da biblioteca watsonx.ai Python.
Experimente o notebook de amostra: Use o serviço watsonx.ai Text Extraction V2 para extrair o texto do arquivo.
Node.js
Você pode extrair texto de arquivos em IBM watsonx.ai programaticamente usando o Node.js SDK. Para obter mais informações, consulte os recursos a seguir:
Para saber mais, consulte o exemplo de código.