text extraction

Extraia texto para converter documentos comerciais de alta qualidade em um formato de arquivo mais simples que possa ser usado por modelos de IA ou para localizar e isolar informações importantes de documentos como contratos.

A extração de texto é poderosa para casos de uso em que você deseja extrair entidades específicas ou categorias de informações de um documento com base na estrutura do documento.

Compatibilidade e especificações

Plataformas em nuvem

Tipos de arquivos de entrada suportados

Você pode extrair texto de documentos em diferentes idiomas ou de um documento que tenha uma mistura de vários idiomas. Extraia texto dos seguintes tipos de arquivo:

  • BMP
  • DOC
  • DOCX
  • GIF
  • HTML
  • JFIF
  • JPG
  • Marcação
  • PDF
  • PNG
  • PPT
  • PPTX
  • TIFF
  • XLSX
Observação: você não pode usar a API de extração de texto para extrair dados de pares chave-valor de documentos XLSX.
Tipos de arquivos de saída suportados

Você pode armazenar o texto extraído nos seguintes formatos de arquivo:

  • JSON
  • Marcação
  • HTML
  • TXT

Para obter detalhes sobre o conteúdo do resultado extraído em cada tipo de arquivo de saída, consulte Especificação do formato de saída.

Tipos de armazenamento suportados

Você pode armazenar seus documentos de entrada nos seguintes tipos de armazenamento conectados:

  • IBM Cloud Object Storage

  • Amazon S3

  • Qualquer armazenamento genérico compatível com o site Amazon S3

  • Caixa

  • IBM watsonx.data SharePoint

  • IBM FileNet P8

    Nota:A conexão IBM FileNet P8 está disponível apenas no data center de Toronto e para um provedor de serviços de nuvem gerenciada (MCSP).

Você pode armazenar os arquivos de saída da extração de texto nos seguintes tipos de armazenamento conectados:

  • IBM Cloud Object Storage

  • Amazon S3

  • Qualquer armazenamento genérico compatível com o site Amazon S3

  • Caixa

    Nota:A API de extração de texto é certificada para uso com o armazenamento genérico de objetos compatível com Amazon S3 MinIO.

Para obter detalhes sobre como criar uma conexão com os vários tipos de armazenamentos de dados em seu projeto, consulte Conectores para watsonx.ai.

Modelos de fundação com suporte

A API de extração de texto é certificada para usar o modelo mistral-small-3-1-24b-instruct-2503 para extração de pares de valores-chave e verbalização de imagens. Você também pode usar modelos alternativos que podem processar entradas visuais e responder em um formato JSON, como:

  • llama-4-maverick-17b-128e-instruct-fp8
  • mistral-medium-2505

Para obter detalhes do modelo de fundação, consulte Modelos de fundação compatíveis.

Restrições

  • Você pode extrair texto de tipos específicos de arquivos de entrada e armazenar a saída extraída em determinados tipos de arquivos. Nem todo tipo de arquivo de entrada pode ser extraído para todos os formatos de saída suportados. A tabela a seguir fornece detalhes sobre qual tipo de arquivo de entrada é compatível com os vários formatos de saída:

    Compatibilidade do tipo de arquivo de entrada e do formato de saída extraído para a API de extração de texto
    Tipo de Arquivo de Entrada Formatos de arquivo de saída compatíveis
    PDF programático Todos os formatos
    PDF digitalizado Todos os formatos
    Imagem Todos os formatos
    Arquivo Microsoft PowerPoint Todos os formatos
    Arquivo do Microsoft Word Todos os formatos
    Marcação Todos os formatos
    Arquivo do Microsoft Excel Markdown, JSON, texto simples
    Arquivo HTML Markdown, JSON, texto simples
  • A verbalização de imagens e a extração de pares chave-valor só são suportadas para documentos em inglês.

  • Os resultados de uma solicitação de extração de texto que processa pares de valores-chave só estão disponíveis no formato de saída assembly . Os pares de valores-chave não são extraídos nos formatos de saída HTML, Markdown ou texto simples.

Formas de trabalho

Você pode extrair texto de documentos armazenados em seu projeto watsonx.ai com esses métodos programáticos:

Para configurar o acesso para usar a API de extração de texto, consulte os Recursos do desenvolvedor.

API de REST

Você pode extrair texto de arquivos em IBM watsonx.ai programaticamente usando o método de extração de texto da API REST de watsonx.ai.

Para obter detalhes sobre como personalizar uma solicitação de extração de texto, consulte Parâmetros de extração de texto.

Para obter detalhes sobre o método da API, consulte a documentação de referência da API watsonx.ai.

Python

Você pode extrair texto de arquivos em IBM watsonx.ai programaticamente usando a biblioteca Python.

Consulte a classe TextExtractionsV2 da biblioteca watsonx.ai Python.

Experimente o notebook de amostra: Use o serviço watsonx.ai Text Extraction V2 para extrair o texto do arquivo.

Node.js

Você pode extrair texto de arquivos em IBM watsonx.ai programaticamente usando o Node.js SDK. Para obter mais informações, consulte os recursos a seguir:

Para saber mais, consulte o exemplo de código.

Saiba mais