O que é extração de informações?

17 de fevereiro de 2025

Tempo de leitura

Autores

Ivan Belcic

Staff writer

Cole Stryker

Editorial Lead, AI Models

Gather

O que é extração de informações?

A extração de informações (IE) é o processo automatizado de extrair informações estruturadas de dados de texto semiestruturados ou não estruturados, transformando fontes de texto de linguagem humana, como PDFs, em um formato organizado, pesquisável e legível por máquina. O processamento de linguagem natural (PLN) depende da extração de informações para identificar dados importantes no texto de input.

Os algoritmos de extração de informações podem identificar entidades, incluindo nomes, relacionamentos, eventos, sentimento e muito mais, e depois classificá-las e armazená-las em um banco de dados para uso posterior. As informações estruturadas resultantes têm um formato padronizado e normalmente são armazenadas em linhas e colunas que identificam seus atributos. O armazenamento padronizado é o principal diferencial entre dados estruturados e dados não estruturados.

Todos os valores de dados dentro do mesmo banco de dados aderem ao mesmo formato estruturado com os mesmos atributos definidos. Os atributos relacionais também são destacados para conectar os bancos de dados com base em atributos compartilhados.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionadas por especialistas sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Por que a extração de informações é importante?

A extração de informações permite que as empresas transformem documentos em conjuntos de dados práticos e gerem insights valiosos a partir deles. Prevê-se que o mercado de processamento inteligente de documentos – que a IE facilita – deve crescer a uma taxa composta de crescimento anual (CAGR) de 33,1% até 2030, de um valor de USD 2,3 bilhões em 2024.1

Recuperação de informações

Os sistemas de extração de informações preparam o cenário para a recuperação de informações automatizada: o uso de algoritmos de inteligência artificial (IA) para encontrar e recuperar automaticamente os dados relevantes das bases de conhecimento. A recuperação de informações é um componente essencial da geração aumentada de recuperação (RAG), um processo pelo qual grandes modelos de linguagem (LLMs) têm acesso a mais dados para alcançar uma alta precisão nos casos de uso de domínios específicos.

O RAG pode tornar os chatbots do LLM mais precisos quando aplicados a tarefas de resposta a perguntas, porque o LLM pode usar mais conhecimento fora de seus dados de treinamento para gerar respostas melhores.

Tomada de decisão acionada por dados

Os líderes empresariais podem usar as informações extraídas para facilitar a tomada de decisões baseada em dados em tempo real. O EI é um estágio preliminar no ciclo mais amplo de processamento de informações, no qual as informações são adquiridas, organizadas, armazenadas, manipuladas e disponibilizadas para uso.

Os pipelines de dados fornecem as informações a toda a empresa, conectando os inputs – por exemplo, pedidos online – aos bancos de dados. A partir daí, as ferramentas de visualização de dados se baseiam nesses dados para criar gráficos e tabelas em tempo real, revelando insights práticos que impulsionam a tomada de decisões estratégicas.

Os grandes conjuntos de dados estruturados de produção dos sistemas de IE podem ser usados para criar relatórios e resumos. Os algoritmos de aprendizado de máquina para IE também podem executar o resumo de texto para condensar documentos detalhados em marcadores rapidamente digeríveis com anotações para referência rápida.

Por exemplo, a IE na área da saúde pode compilar automaticamente o relatório de um paciente a partir de vários arquivos, o que pode facilitar o diagnóstico de problemas e a prescrição de tratamentos para os médicos. Os profissionais de finanças podem gerar previsões mais precisas com informações extraídas de vários relatórios, artigos de notícias e outras fontes.

Mistura de Especialistas | Podcast

Decodificando a IA: resumo semanal das notícias

Junte-se a nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Tipos de extração de informações

As tarefas de extração de informações são categorizadas com base no tipo de informação que está sendo identificada e rotulada. Os sistemas de IE podem realizar tarefas como:

  • Reconhecimento de entidade mencionada (NER)
  • Extração de relações
  • Extração de eventos
  • Análise de sentimento

Reconhecimento de entidade mencionada (NER)

Reconhecimento da entidade mencionada é a tarefa de IE de identificar as entidades mencionadas nos dados não estruturados. As entidades mencionadas são objetos do mundo real que podem ser identificados exclusivamente. Basicamente, eles são os substantivos próprios dos dados. As entidades mencionadas incluem pessoas, datas, empresas, lugares e produtos e podem ser físicas ou abstratas.

Na frase "Em janeiro de 2025, Arvind Krishna é o CEO da IBM", as entidades mencionadas incluem janeiro de 2025, Arvind Krishna, CEO e IBM."

Vinculação de entidade

A vinculação de entidades é o processo de descobrir se várias entidades se referem ao mesmo objeto do mundo real. Ao conduzir IE sobre um artigo que menciona "Arvind Krishna", "Krishna" e "CEO da IBM", uma subtarefa de vinculação de entidades identificaria todos os três como referências à mesma pessoa. A vinculação de entidades também é chamada de resolução de correferência.

Extração de relações (RE)

A extração de relações é a tarefa de extração de informações de identificar e categorizar as relações entre entidades em uma fonte de dados. Descobrir relações entre entidades pode abrir a porta para insights que poderiam passar despercebidos.

Na nossa frase de exemplo do início desta seção, o processo de RE traçaria uma conexão "trabalha na" entre "Arvind Krishna" e "IBM" com o título de "CEO".

Extração de relação versus extração de relacionamento

Os termos extração de relação e extração de relacionamento são frequentemente usados de forma intercambiável, mas alguns cientistas de dados defendem uma distinção sutil. Enquanto a extração de relacionamento abrange qualquer tentativa de discernir as relações entre entidades, a extração de relação é mais frequentemente usada em relação à aplicação de modelos de aprendizado de máquina para realizar essa tarefa.

Extração de eventos

A extração de eventos é a forma como os sistemas de IE reconhecem eventos discretos em um corpo de texto de input. Palavras, como "compromisso" ou "reunião", podem acionar uma sequência de extração de eventos, assim como datas. A extração de eventos abrange o evento em si, a hora e a data em que ocorreu e todos os participantes mencionados.

Na frase de exemplo, "Arvind Krishna participou da conferência em janeiro de 2025", um algoritmo de extração de evento identificaria que uma conferência ocorreu em janeiro de 2025 e que um dos participantes era o CEO da IBM, Arvind Krishna.

Análise de sentimento

A análise de sentimento determina o sentimento comunicado por um trecho do texto. A análise de sentimento é uma ferramenta valiosa para realizar pesquisas de mercado e entender o comportamento do cliente.

Se for fornecido um conjunto de dados que consiste em avaliações de usuários, um algoritmo de IE pode fornecer insights semânticos que revelam as porcentagens de consumidores que têm uma impressão positiva, negativa ou neutra em relação a um produto. Os gerentes do produto poderiam, então, pegar esses insights e ajustar o produto para torná-lo mais atraente para uma parcela maior de seus usuários atuais e potenciais.

Como funciona a extração de informações?

A extração de informações funciona analisando fontes de dados não estruturadas com algoritmos de aprendizado de máquina para identificar dados significativos. Os sistemas de IE rotulam as entidades de dados descobertas e as armazenam em um banco de dados organizado e consultável para uma recuperação eficiente.

As técnicas de extração de informações incluem:

  • Classificação
  • baseada em regras (aprendizado de máquina)
  • Rotulagem de sequências

Esses métodos não são mutuamente exclusivos – os avanços na IE levaram a modelos híbridos que combinam métodos para obter melhores resultados.

Extração de informações baseada em regras

A extração de informações baseada em regras analisa documentos para identificar entidades com base em "regras" estabelecidas – padrões e definições predefinidos que são conhecidos sobre as entidades no texto. A IE baseada em regras é mais frequentemente aplicada a fontes de dados semiestruturadas – dados que não estão totalmente estruturados, mas que ainda possuem alguns recursos de identificação, como tags ou metadados.

A IE baseada em regras de cima para baixo funciona progredindo de casos gerais para casos específicos, enquanto o método de baixo para cima faz o oposto.

Extração de informações baseada em classificação

A IE baseada em classificação é um processo de duas etapas que aborda a extração de informações como uma tarefa de classificação de aprendizado supervisionado. Primeiro, os modelos de aprendizado de máquina são treinados em conjuntos de dados rotulados para aprender as conexões entre entidades e seus atributos correspondentes. Os modelos então preveem rótulos para as entidades que eles identificam em novos dados não estruturados.

Rotulagem de sequências

A rotulagem de sequência é a base do PLN e usa modelos de deep learning para identificar e rotular os componentes de uma sequência de input – por exemplo, as palavras em um prompt de chatbot. A rotulagem de sequências é uma etapa crítica de pré-processamento do PLN, ajudando a garantir que as redes neurais saibam exatamente como interpretar os dados de input.

Além de identificar entidades nos dados, a rotulagem de sequência também captura dependências entre partes de uma sequência de input. As dependências são um tipo especial de relacionamento no qual uma parte de uma sequência de input depende de outra parte para ser interpretada corretamente. Modelos de transformadores como tecnologia de uso geral (GPTs), são excelentes na captura de dependências, e é por isso que eles conseguem manter a compreensão contextual em longas sequências de input.

Soluções relacionadas
IBM watsonx Orchestrate

Projete assistentes e agentes de IA escaláveis com facilidade, automatize tarefas repetitivas e simplifique processos complexos com o IBM® watsonx Orchestrate.

Conheça o watsonx Orchestrate
Ferramentas e APIs de processamento de linguagem natural

Acelere o valor comercial da inteligência artificial com um portfólio poderoso e flexível de bibliotecas, serviços e aplicativos.

Explore as soluções de PNL
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Projete assistentes e agentes de IA escaláveis com facilidade, automatize tarefas repetitivas e simplifique processos complexos com o IBM® watsonx Orchestrate.

Conheça o watsonx Orchestrate Explore as soluções de PLN