O que é Extração de Informações?

Autores

Staff writer

Staff Editor, AI Models

IBM Think

O que é extração de informações?

A extração de informações (IE) é o processo automatizado de extrair informações estruturadas de dados de texto semiestruturados ou não estruturados, transformando fontes de texto de linguagem humana, como PDFs, em um formato organizado, pesquisável e legível por máquina. O processamento de linguagem natural (PLN) depende da extração de informações para identificar dados importantes no texto de input.

Os algoritmos de extração de informações podem identificar entidades, incluindo nomes, relacionamentos, eventos, sentimento e muito mais, e depois classificá-las e armazená-las em um banco de dados para uso posterior. As informações estruturadas resultantes têm um formato padronizado e normalmente são armazenadas em linhas e colunas que identificam seus atributos. O armazenamento padronizado é o principal diferencial entre dados estruturados e dados não estruturados.

Todos os valores de dados dentro do mesmo banco de dados aderem ao mesmo formato estruturado com os mesmos atributos definidos. Os atributos relacionais também são destacados para conectar os bancos de dados com base em atributos compartilhados.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Por que a extração de informações é importante?

A extração de informações permite que as empresas transformem documentos em conjuntos de dados práticos e gerem insights valiosos a partir deles. Prevê-se que o mercado de processamento inteligente de documentos – que a IE facilita – deve crescer a uma taxa composta de crescimento anual (CAGR) de 33,1% até 2030, de um valor de USD 2,3 bilhões em 2024.¹

Recuperação de informações

Os sistemas de extração de informações preparam o cenário para a recuperação de informações automatizada: o uso de algoritmos de inteligência artificial (IA) para encontrar e recuperar automaticamente os dados relevantes das bases de conhecimento. A recuperação de informações é um componente essencial da geração aumentada de recuperação (RAG), um processo pelo qual grandes modelos de linguagem (LLMs) têm acesso a mais dados para alcançar uma alta precisão nos casos de uso de domínios específicos.

O RAG pode tornar os chatbots do LLM mais precisos quando aplicados a tarefas de resposta a perguntas, porque o LLM pode usar mais conhecimento fora de seus dados de treinamento para gerar respostas melhores.

Tomada de decisão baseada em dados

Os líderes empresariais podem usar as informações extraídas para facilitar a tomada de decisões baseada em dados em tempo real. O EI é um estágio preliminar no ciclo mais amplo de processamento de informações, no qual as informações são adquiridas, organizadas, armazenadas, manipuladas e disponibilizadas para uso.

Os pipelines de dados fornecem as informações a toda a empresa, conectando os inputs – por exemplo, pedidos online – aos bancos de dados. A partir daí, as ferramentas de visualização de dados se baseiam nesses dados para criar gráficos e tabelas em tempo real, revelando insights práticos que impulsionam a tomada de decisões estratégicas.

Os grandes conjuntos de dados estruturados de produção dos sistemas de IE podem ser usados para criar relatórios e resumos. Os algoritmos de aprendizado de máquina para IE também podem executar o resumo de texto para condensar documentos detalhados em marcadores rapidamente digeríveis com anotações para referência rápida.

Por exemplo, a IE na área da saúde pode compilar automaticamente o relatório de um paciente a partir de vários arquivos, o que pode facilitar o diagnóstico de problemas e a prescrição de tratamentos para os médicos. Os profissionais de finanças podem gerar previsões mais precisas com informações extraídas de vários relatórios, artigos de notícias e outras fontes.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Veja todos os episódios de Mixture of Experts

Tipos de extração de informações

As tarefas de extração de informações são categorizadas com base no tipo de informação que está sendo identificada e rotulada. Os sistemas de IE podem realizar tarefas como:

Reconhecimento de entidade mencionada (NER)
Extração de relações
Extração de eventos
Análise de sentimento

Named entity recognition (NER)

Reconhecimento da entidade mencionada é a tarefa de IE de identificar as entidades mencionadas nos dados não estruturados. As entidades mencionadas são objetos do mundo real que podem ser identificados exclusivamente. Basicamente, eles são os substantivos próprios dos dados. As entidades mencionadas incluem pessoas, datas, empresas, lugares e produtos e podem ser físicas ou abstratas.

Na frase "Em janeiro de 2025, Arvind Krishna é o CEO da IBM", as entidades mencionadas incluem janeiro de 2025, Arvind Krishna, CEO e IBM."

Vinculação de entidade

A vinculação de entidades é o processo de descobrir se várias entidades se referem ao mesmo objeto do mundo real. Ao conduzir IE sobre um artigo que menciona "Arvind Krishna", "Krishna" e "CEO da IBM", uma subtarefa de vinculação de entidades identificaria todos os três como referências à mesma pessoa. A vinculação de entidades também é chamada de resolução de correferência.

Extração de relações (RE)

A extração de relações é a tarefa de extração de informações de identificar e categorizar as relações entre entidades em uma fonte de dados. Descobrir relações entre entidades pode abrir a porta para insights que poderiam passar despercebidos.

Na nossa frase de exemplo do início desta seção, o processo de RE traçaria uma conexão "trabalha na" entre "Arvind Krishna" e "IBM" com o título de "CEO".

Extração de relações versus extração de relacionamentos

Os termos extração de relação e extração de relacionamento são frequentemente usados de forma intercambiável, mas alguns cientistas de dados defendem uma distinção sutil. Enquanto a extração de relacionamento abrange qualquer tentativa de discernir as relações entre entidades, a extração de relação é mais frequentemente usada em relação à aplicação de modelos de aprendizado de máquina para realizar essa tarefa.

Extração de eventos

A extração de eventos é a forma como os sistemas de IE reconhecem eventos discretos em um corpo de texto de input. Palavras, como "compromisso" ou "reunião", podem acionar uma sequência de extração de eventos, assim como datas. A extração de eventos abrange o evento em si, a hora e a data em que ocorreu e todos os participantes mencionados.

Na frase de exemplo, "Arvind Krishna participou da conferência em janeiro de 2025", um algoritmo de extração de evento identificaria que uma conferência ocorreu em janeiro de 2025 e que um dos participantes era o CEO da IBM, Arvind Krishna.

Análise de sentimento

A análise de sentimento determina o sentimento comunicado por um trecho do texto. A análise de sentimento é uma ferramenta valiosa para realizar pesquisas de mercado e entender o comportamento do cliente.

Se for fornecido um conjunto de dados que consiste em avaliações de usuários, um algoritmo de IE pode fornecer insights semânticos que revelam as porcentagens de consumidores que têm uma impressão positiva, negativa ou neutra em relação a um produto. Os gerentes do produto poderiam, então, pegar esses insights e ajustar o produto para torná-lo mais atraente para uma parcela maior de seus usuários atuais e potenciais.

Como funciona a extração de informações?

A extração de informações funciona analisando fontes de dados não estruturadas com algoritmos de aprendizado de máquina para identificar dados significativos. Os sistemas de IE rotulam as entidades de dados descobertas e as armazenam em um banco de dados organizado e consultável para uma recuperação eficiente.

As técnicas de extração de informações incluem:

Classificação
baseada em regras (aprendizado de máquina)
Rotulagem de sequências

Esses métodos não são mutuamente exclusivos – os avanços na IE levaram a modelos híbridos que combinam métodos para obter melhores resultados.

Extração de informações baseada em regras

A extração de informações baseada em regras analisa documentos para identificar entidades com base em "regras" estabelecidas – padrões e definições predefinidos que são conhecidos sobre as entidades no texto. A IE baseada em regras é mais frequentemente aplicada a fontes de dados semiestruturadas – dados que não estão totalmente estruturados, mas que ainda possuem alguns recursos de identificação, como tags ou metadados.

A IE baseada em regras de cima para baixo funciona progredindo de casos gerais para casos específicos, enquanto o método de baixo para cima faz o oposto.

Extração de informações baseada em classificação

A IE baseada em classificação é um processo de duas etapas que aborda a extração de informações como uma tarefa de classificação de aprendizado supervisionado. Primeiro, os modelos de aprendizado de máquina são treinados em conjuntos de dados rotulados para aprender as conexões entre entidades e seus atributos correspondentes. Os modelos então preveem rótulos para as entidades que eles identificam em novos dados não estruturados.

Rotulagem de sequências

A rotulagem de sequência é a base do PLN e usa modelos de deep learning para identificar e rotular os componentes de uma sequência de input – por exemplo, as palavras em um prompt de chatbot. A rotulagem de sequências é uma etapa crítica de pré-processamento do PLN, ajudando a garantir que as redes neurais saibam exatamente como interpretar os dados de input.

Além de identificar entidades nos dados, a rotulagem de sequência também captura dependências entre partes de uma sequência de input. As dependências são um tipo especial de relacionamento no qual uma parte de uma sequência de input depende de outra parte para ser interpretada corretamente. Modelos de transformadores como tecnologia de uso geral (GPTs), são excelentes na captura de dependências, e é por isso que eles conseguem manter a compreensão contextual em longas sequências de input.

Além da empolgação — Como assistentes de IA geram valor real para os negócios

Explore os principais casos de uso dos assistentes de IA, compreenda o impacto potencial da IA generativa e da tecnologia de automação em sua empresa e saiba como começar.

O que é extração de informações?

O que é extração de informações?

As mais recentes tendências em IA, trazidas a você por especialistas

Agradecemos a você! Você se inscreveu.

Por que a extração de informações é importante?

Recuperação de informações

Tomada de decisão baseada em dados

Decodificando a IA: resumo semanal das notícias

Tipos de extração de informações

Named entity recognition (NER)

Vinculação de entidade

Extração de relações (RE)

Extração de relações versus extração de relacionamentos

Extração de eventos

Análise de sentimento

Como funciona a extração de informações?

Extração de informações baseada em regras

Extração de informações baseada em classificação

Rotulagem de sequências

Recursos

Notas de rodapé

O que é extração de informações?

O que é extração de informações?

As mais recentes tendências em IA, trazidas a você por especialistas

Agradecemos a você! Você se inscreveu.

Por que a extração de informações é importante?

Recuperação de informações

Tomada de decisão baseada em dados

Decodificando a IA: resumo semanal das notícias

Tipos de extração de informações

Named entity recognition (NER)

Vinculação de entidade

Extração de relações (RE)

Extração de relações versus extração de relacionamentos

Extração de eventos

Análise de sentimento

Como funciona a extração de informações?

Extração de informações baseada em regras

Extração de informações baseada em classificação

Rotulagem de sequências

Share

Recursos

Notas de rodapé