Tempo de leitura
A extração de informações (IE) é o processo automatizado de extrair informações estruturadas de dados de texto semiestruturados ou não estruturados, transformando fontes de texto de linguagem humana, como PDFs, em um formato organizado, pesquisável e legível por máquina. O processamento de linguagem natural (PLN) depende da extração de informações para identificar dados importantes no texto de input.
Os algoritmos de extração de informações podem identificar entidades, incluindo nomes, relacionamentos, eventos, sentimento e muito mais, e depois classificá-las e armazená-las em um banco de dados para uso posterior. As informações estruturadas resultantes têm um formato padronizado e normalmente são armazenadas em linhas e colunas que identificam seus atributos. O armazenamento padronizado é o principal diferencial entre dados estruturados e dados não estruturados.
Todos os valores de dados dentro do mesmo banco de dados aderem ao mesmo formato estruturado com os mesmos atributos definidos. Os atributos relacionais também são destacados para conectar os bancos de dados com base em atributos compartilhados.
A extração de informações permite que as empresas transformem documentos em conjuntos de dados práticos e gerem insights valiosos a partir deles. Prevê-se que o mercado de processamento inteligente de documentos – que a IE facilita – deve crescer a uma taxa composta de crescimento anual (CAGR) de 33,1% até 2030, de um valor de USD 2,3 bilhões em 2024.1
Os sistemas de extração de informações preparam o cenário para a recuperação de informações automatizada: o uso de algoritmos de inteligência artificial (IA) para encontrar e recuperar automaticamente os dados relevantes das bases de conhecimento. A recuperação de informações é um componente essencial da geração aumentada de recuperação (RAG), um processo pelo qual grandes modelos de linguagem (LLMs) têm acesso a mais dados para alcançar uma alta precisão nos casos de uso de domínios específicos.
O RAG pode tornar os chatbots do LLM mais precisos quando aplicados a tarefas de resposta a perguntas, porque o LLM pode usar mais conhecimento fora de seus dados de treinamento para gerar respostas melhores.
Os líderes empresariais podem usar as informações extraídas para facilitar a tomada de decisões baseada em dados em tempo real. O EI é um estágio preliminar no ciclo mais amplo de processamento de informações, no qual as informações são adquiridas, organizadas, armazenadas, manipuladas e disponibilizadas para uso.
Os pipelines de dados fornecem as informações a toda a empresa, conectando os inputs – por exemplo, pedidos online – aos bancos de dados. A partir daí, as ferramentas de visualização de dados se baseiam nesses dados para criar gráficos e tabelas em tempo real, revelando insights práticos que impulsionam a tomada de decisões estratégicas.
Os grandes conjuntos de dados estruturados de produção dos sistemas de IE podem ser usados para criar relatórios e resumos. Os algoritmos de aprendizado de máquina para IE também podem executar o resumo de texto para condensar documentos detalhados em marcadores rapidamente digeríveis com anotações para referência rápida.
Por exemplo, a IE na área da saúde pode compilar automaticamente o relatório de um paciente a partir de vários arquivos, o que pode facilitar o diagnóstico de problemas e a prescrição de tratamentos para os médicos. Os profissionais de finanças podem gerar previsões mais precisas com informações extraídas de vários relatórios, artigos de notícias e outras fontes.
As tarefas de extração de informações são categorizadas com base no tipo de informação que está sendo identificada e rotulada. Os sistemas de IE podem realizar tarefas como:
Reconhecimento da entidade mencionada é a tarefa de IE de identificar as entidades mencionadas nos dados não estruturados. As entidades mencionadas são objetos do mundo real que podem ser identificados exclusivamente. Basicamente, eles são os substantivos próprios dos dados. As entidades mencionadas incluem pessoas, datas, empresas, lugares e produtos e podem ser físicas ou abstratas.
Na frase "Em janeiro de 2025, Arvind Krishna é o CEO da IBM", as entidades mencionadas incluem janeiro de 2025, Arvind Krishna, CEO e IBM."
A vinculação de entidades é o processo de descobrir se várias entidades se referem ao mesmo objeto do mundo real. Ao conduzir IE sobre um artigo que menciona "Arvind Krishna", "Krishna" e "CEO da IBM", uma subtarefa de vinculação de entidades identificaria todos os três como referências à mesma pessoa. A vinculação de entidades também é chamada de resolução de correferência.
A extração de relações é a tarefa de extração de informações de identificar e categorizar as relações entre entidades em uma fonte de dados. Descobrir relações entre entidades pode abrir a porta para insights que poderiam passar despercebidos.
Na nossa frase de exemplo do início desta seção, o processo de RE traçaria uma conexão "trabalha na" entre "Arvind Krishna" e "IBM" com o título de "CEO".
Os termos extração de relação e extração de relacionamento são frequentemente usados de forma intercambiável, mas alguns cientistas de dados defendem uma distinção sutil. Enquanto a extração de relacionamento abrange qualquer tentativa de discernir as relações entre entidades, a extração de relação é mais frequentemente usada em relação à aplicação de modelos de aprendizado de máquina para realizar essa tarefa.
A extração de eventos é a forma como os sistemas de IE reconhecem eventos discretos em um corpo de texto de input. Palavras, como "compromisso" ou "reunião", podem acionar uma sequência de extração de eventos, assim como datas. A extração de eventos abrange o evento em si, a hora e a data em que ocorreu e todos os participantes mencionados.
Na frase de exemplo, "Arvind Krishna participou da conferência em janeiro de 2025", um algoritmo de extração de evento identificaria que uma conferência ocorreu em janeiro de 2025 e que um dos participantes era o CEO da IBM, Arvind Krishna.
A análise de sentimento determina o sentimento comunicado por um trecho do texto. A análise de sentimento é uma ferramenta valiosa para realizar pesquisas de mercado e entender o comportamento do cliente.
Se for fornecido um conjunto de dados que consiste em avaliações de usuários, um algoritmo de IE pode fornecer insights semânticos que revelam as porcentagens de consumidores que têm uma impressão positiva, negativa ou neutra em relação a um produto. Os gerentes do produto poderiam, então, pegar esses insights e ajustar o produto para torná-lo mais atraente para uma parcela maior de seus usuários atuais e potenciais.
A extração de informações funciona analisando fontes de dados não estruturadas com algoritmos de aprendizado de máquina para identificar dados significativos. Os sistemas de IE rotulam as entidades de dados descobertas e as armazenam em um banco de dados organizado e consultável para uma recuperação eficiente.
As técnicas de extração de informações incluem:
Esses métodos não são mutuamente exclusivos – os avanços na IE levaram a modelos híbridos que combinam métodos para obter melhores resultados.
A extração de informações baseada em regras analisa documentos para identificar entidades com base em "regras" estabelecidas – padrões e definições predefinidos que são conhecidos sobre as entidades no texto. A IE baseada em regras é mais frequentemente aplicada a fontes de dados semiestruturadas – dados que não estão totalmente estruturados, mas que ainda possuem alguns recursos de identificação, como tags ou metadados.
A IE baseada em regras de cima para baixo funciona progredindo de casos gerais para casos específicos, enquanto o método de baixo para cima faz o oposto.
A IE baseada em classificação é um processo de duas etapas que aborda a extração de informações como uma tarefa de classificação de aprendizado supervisionado. Primeiro, os modelos de aprendizado de máquina são treinados em conjuntos de dados rotulados para aprender as conexões entre entidades e seus atributos correspondentes. Os modelos então preveem rótulos para as entidades que eles identificam em novos dados não estruturados.
A rotulagem de sequência é a base do PLN e usa modelos de deep learning para identificar e rotular os componentes de uma sequência de input – por exemplo, as palavras em um prompt de chatbot. A rotulagem de sequências é uma etapa crítica de pré-processamento do PLN, ajudando a garantir que as redes neurais saibam exatamente como interpretar os dados de input.
Além de identificar entidades nos dados, a rotulagem de sequência também captura dependências entre partes de uma sequência de input. As dependências são um tipo especial de relacionamento no qual uma parte de uma sequência de input depende de outra parte para ser interpretada corretamente. Modelos de transformadores como tecnologia de uso geral (GPTs), são excelentes na captura de dependências, e é por isso que eles conseguem manter a compreensão contextual em longas sequências de input.
O IBM Granite é nossa família de modelos de IA abertos, de alto desempenho e confiáveis, personalizados para a empresa e otimizados para escalar suas aplicações de IA. Explore as opções de linguagens, código, séries temporais e proteções.
Descubra como o processamento de linguagem natural pode ajudar você a conversar de forma mais natural com computadores.
Entrevistamos duas mil organizações a respeito de suas iniciativas de IA para descobrir o que está funcionando, o que não está e como se preparar.
Explore o site do desenvolvedor da IBM para acessar blogs, artigos, boletins informativos e saber mais sobre a IA incorporável da IBM.
Aprenda conceitos fundamentais e desenvolva suas habilidades com laboratórios práticos, cursos, projetos guiados, avaliações e muito mais.
Projete assistentes e agentes de IA escaláveis com facilidade, automatize tarefas repetitivas e simplifique processos complexos com o IBM® watsonx Orchestrate.
Acelere o valor comercial da inteligência artificial com um portfólio poderoso e flexível de bibliotecas, serviços e aplicativos.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.