O que é enriquecimento de dados?

Autores

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

O que é enriquecimento de dados?

O enriquecimento de dados é uma técnica para melhorar a qualidade e a usabilidade dos dados, complementando o conjunto de dados com informações adicionais provenientes de fontes internas ou externas.

 

As organizações estão coletando mais dados do que nunca, mas muitas vezes esses dados carecem de contexto ou significado. O enriquecimento de dados ajuda a preencher essas lacunas e a melhorar a compreensão dos pontos de dados existentes, sejam eles dados brutos ou um conjunto de dados estruturado. Aumentar os dados dessa forma pode transformar um conjunto de dados incompreensível em esclarecedor, capacitando a organização a tomar decisões mais embasadas.

As práticas de enriquecimento de dados geralmente fazem parte dos programas de gerenciamento de dados e gerenciamento de dados mestres de uma empresa. Existem vários tipos de enriquecimento de dados que a organizações buscam, dependendo de suas necessidades de negócios e fontes de dados, como enriquecimento demográfico, firmográfico e geográfico. Embora as equipes de dados possam realizar manualmente o enriquecimento de dados, a inteligência artificial (IA) e a automação ajudam a otimizar os processos de enriquecimento de dados.

Os casos de uso mais comuns para o enriquecimento de dados são encontrados na estratégia de marketing, mas os processos de enriquecimento de dados também podem desempenhar um papel em áreas como cibersegurança, saúde e planejamento urbano. O enriquecimento de dados também se mostrou cada vez mais valioso para elevar o desempenho dos modelos de aprendizado de máquina; ele fornece contexto e dados mais completos para previsões mais precisas.

Por que o enriquecimento de dados é importante?

Imagine uma tela parcialmente pintada, com a metade inferior coberta por pinceladas azuis representando um oceano, enquanto algumas manchas douradas curiosas flutuam no meio. Quando a pintura é concluída, no entanto, fica claro que essas áreas são reflexos da luz; a pintura concluída retrata o sol se pondo sobre a água.

Embora uma tela inacabada possa ser uma obra de arte por si só, ela também tem o potencial de ser algo mais. O mesmo se aplica aos conjuntos de dados que são aprimorados por meio do enriquecimento de dados.

Por exemplo, quando uma tabela de dados de clientes contendo apenas nomes e números de telefone é enriquecida com endereços de e-mail, ela se torna uma ferramenta mais poderosa de divulgação. Quando um conjunto de dados de endereços de ruas é enriquecido com coordenadas geográficas, ele pode fornecer insights mais profundos sobre o uso do solo de um bairro.

À medida que as empresas continuam gerando e coletando grandes quantidades de dados brutos e dados não estruturados, o enriquecimento de dados ganhou uma nova urgência. Mais dados brutos e não estruturados significam mais lacunas e falta de contexto no conjunto de dados. No entanto, por meio do enriquecimento de dados, as organizações podem correlacionar esses dados com outros pontos de dados que lhes dão mais significado, gerando um maior retorno sobre o investimento em seus ativos de dados.

Quais são os benefícios do enriquecimento de dados?

O enriquecimento de dados gera uma variedade de benefícios, incluindo:

  • Maior precisão dos dados: o enriquecimento de dados pode preencher lacunas nos dados existentes, como endereços postais incompletos ou títulos profissionais ausentes.
 
  • Maior confiança: ver diferentes dimensões de dados, como um conjunto de dados de nomes de empresas enriquecidos com códigos de classificação de setores, pode dar aos usuários a confiança de que estão acessando os pontos de dados certos para seus propósitos.
 
  • Melhor desempenho da IA: a inteligência artificial, incluindo modelos de aprendizado de máquina e modelos de IA generativa , funciona melhor quando alimentada com dados completos e de alta qualidade.
 
  • Insights para tomada de decisão: conjuntos de dados abrangentes obtidos por meio do enriquecimento de dados podem ajudar as empresas a descobrir novos padrões e oportunidades relacionadas às demandas de mercado, preços e muito mais. Por exemplo, os insights dos clientes podem orientar os esforços de marketing direcionados com base nas preferências dos clientes.
 
AI Academy

O gerenciamento de dados é o segredo para a IA generativa?

Explore por que é essencial ter dados de alta qualidade para utilizar a IA generativa com qualidade.

Qual é a diferença entre enriquecimento de dados e aprimoramento de dados?

Os termos "enriquecimento de dados" e "aprimoramento de dados" são frequentemente usados de forma intercambiável, mas são processos distintos. Embora ambos possam melhorar a qualidade dos dados, o aprimoramento de dados concentra-se mais em trabalhar com os dados disponíveis, enquanto o enriquecimento de dados concentra-se em adicionar novos pontos de dados a um conjunto de dados.

No aprimoramento de dados, a limpeza e a atualização dos dados são funções essenciais. A inclusão de novos dados pode ser necessária para tratar valores ausentes em uma coluna ou atualizar informações desatualizadas, mas a quantidade de novos dados introduzidos não atinge a escala de um enriquecimento de dados.

Por meio do enriquecimento de dados, novos campos são frequentemente adicionados aos conjuntos de dados existentes. Assim como no aprimoramento de dados, a limpeza de dados faz parte do processo, mas aqui, ela é feita em preparação para a adição de novas informações. (Consulte as "Principais etapas para o enriquecimento de dados" abaixo.)

Tipos de enriquecimento de dados

As organizações geralmente usam um ou mais dos seguintes tipos de enriquecimento de dados para acrescentar informações aos seus conjuntos de dados existentes:

  • Enriquecimento de dados comportamentais: dados sobre o comportamento e o engajamento do cliente com produtos, serviços e vários canais de comunicação, incluindo aplicativos móveis e contas de redes sociais.
 
  • Enriquecimento de dados de contato: informações para enriquecer listas de contatos, incluindo números de telefone, endereços de e-mail, afiliações comerciais e perfis de redes sociais.
 
  • Enriquecimento demográfico: características como idade, gênero, etnia, estado civil e renda. Também conhecido como enriquecimento sociodemográfico.
 
  • Enriquecimento firmográfico: detalhes sobre uma empresa, como setor, tamanho, receitas e localização.
 
  • Enriquecimento geográfico: informações sobre a localização de uma entidade, como endereço, CEP, país e coordenadas geográficas.
 
  • Enriquecimento psicográfico: dados sobre o estilo de vida, interesses, atitudes e crenças de uma pessoa.
 
  • Enriquecimento tecnológico: dados sobre os tipos de tecnologias utilizadas por um indivíduo ou organização, incluindo aplicações, ferramentas, hardware, software e infraestrutura de TI.

Principais etapas para o enriquecimento de dados

O processo de enriquecimento de dados pode variar de acordo com a organização, mas há algumas etapas comuns:

Limpeza de dados

Limpe o conjunto de dados direcionado para enriquecimento por meio de técnicas como padronização (garantindo que os formatos sejam consistentes) e desduplicação de dados.

Identificação de oportunidades de enriquecimento

Determine quais tipos de informações seriam valiosas para adicionar ao conjunto de dados.

Obtenção de dados

Determine as fontes dos novos dados, selecionando entre fontes internas e externas conforme a necessidade.

Integração de dados

Adicione os novos dados aos conjuntos de dados alvo usando ferramentas como um software de integração de dados .

Quais fontes de dados são usadas para o enriquecimento de dados?

As organizações podem realizar o enriquecimento de dados usando seus dados internos, incluindo dados primários (dados coletados diretamente dos clientes), bem como dados de fontes de terceiros.

As empresas que buscam usar dados de fontes internas podem se deparar com um obstáculo: dados isolados. Felizmente, elas podem quebrar esses silos usando a integração de dados, o processo de reunir dados de fontes díspares e transformá-los em formatos unificados e utilizáveis. Por exemplo, uma organização pode enriquecer um conjunto de dados de clientes integrando dados de sistemas de gerenciamento de relacionamento com o cliente (CRM) e bancos de dados de marketing.

As empresas também podem recorrer a fontes de dados externas, nomeadamente fontes de dados públicas e gratuitas e provedores de dados terceirizados. As fontes de dados públicas incluem conjuntos de dados do governo (por exemplo, dados do censo, relatórios de emprego) enquanto os provedores de dados terceirizados coletam e vendem uma variedade de dados, incluindo dados de contato, demográficos e firmográficos.Ao selecionar dados de terceiros, as empresas devem trabalhar apenas com fontes e fornecedores confiáveis para que possam ter certeza de que os dados são precisos, oportunos e atendem a seus padrões de qualidade.

Quaisquer dados adquiridos e armazenados como parte de um processo de enriquecimento de dados devem ser geridos de acordo com as regras que regem a privacidade de dados e a segurança, como o RGPD e a Lei de portabilidade e responsabilidade de planos de saúde (HIPAA).

Ferramentas de enriquecimento de dados

Com o crescimento da tomada de decisões baseada em dados e das necessidades de dados relacionados à IA, a demanda por dados de alta qualidade e, por extensão, ferramentas de enriquecimento de dados, intensificou-se. Prevê-se que o mercado global de soluções de enriquecimento de dados atinja quase US$ 4,6 bilhões até 2030, um aumento em relação aos cerca de US$ 2,4 bilhões em 2023.

Embora a adoção da IA esteja ajudando a impulsionar o uso de soluções de enriquecimento de dados, ela também está na base de algumas das ferramentas mais avançadas de enriquecimento de dados. Os tipos mais comuns de ferramentas e soluções de enriquecimento de dados incluem:

  • Soluções de integração de dados: as soluções de integração de dados dão suporte aos processos de extração, transformação e carregamento (ETL), que incluem o enriquecimento de dados, bem como a limpeza de dados e outras modificações de dados. (É importante observar que as soluções de integração de dados também podem operacionalizar os dados depois de enriquecidos, carregando os dados enriquecidos em warehouses e outros destinos para análise.)
 
  • Data lakehouses abertos: as principais soluções de data lakehouse podem automatizar a ingestão e o enriquecimento de dados não estruturados e unificá-los com dados estruturados.
 
 
  • Soluções de fluxos de trabalho de enriquecimento agêntico: os agentes de IA podem simplificar ainda mais os processos de enriquecimento de dados. Em um modelo de enriquecimento de dados agênticos, um usuário cria uma planilha, acionando uma interface de programação de aplicativos (API) para encontrar e fazer a ingestão de dados relevantes da web em tempo real. As novas informações são processadas por um LLM e, em seguida, adicionadas à planilha.1

Casos de uso de enriquecimento de dados

O enriquecimento de dados tem aplicações em uma variedade de campos e setores.

Marketing e vendas

As equipes de marketing e de vendas são usuários frequentes de enriquecimento de dados, especialmente o enriquecimento de dados comportamentais, o enriquecimento demográfico e o enriquecimento firmográfico. Elas usam dados enriquecidos para criar perfis de clientes, apoiar estratégias de segmentação, criar campanhas de marketing personalizadas e oferecer experiências do cliente customizadas.

Planejamento urbano

Dados espaciais de alta qualidade são cruciais para o planejamento e desenvolvimento urbano. Uma forma de enriquecimento geográfico conhecida como geocodificação extrai coordenadas de latitude e longitude a partir de endereços, permitindo que urbanistas identifiquem localizações com maior precisão.

Saúde e ciências biológicas

Dispositivos vestíveis, aplicativos de saúde e condicionamento físico e outras tecnologias de monitoramento de saúde estão servindo como novas fontes de informações para enriquecer conjuntos de dados de pacientes e pesquisas. Esse tipo de enriquecimento pode ajudar os profissionais da área da saúde a melhorar o atendimento ao paciente e ajudar os pesquisadores a descobrir padrões e insights importantes.

Cibersegurança

Os dados de eventos de segurança podem ser enriquecidos com informações como localizações físicas (enriquecimento geográfico) e os dispositivos utilizados (enriquecimento tecnográfico) para melhorar a avaliação de risco de cibersegurança e vulnerabilidade.

Renderização 3D de uma espiral de vários ícones alinhados, como uma câmera, um botão de volume e uma prancheta
Soluções relacionadas
IBM StreamSets

Crie e gerencie pipelines de dados de streaming inteligentes por meio de uma interface gráfica intuitiva, facilitando a integração sem dificuldades dos dados em ambientes híbridos e de multinuvem.

Explore o StreamSets
IBM watsonx.data™

O watsonx.data permite escalar a análise de dados e a IA com todos os seus dados, onde quer que estejam, por meio de um armazenamento de dados aberto, híbrido e governado.

Conheça o watsonx.data
Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM Consulting, construindo uma organização baseada em insights, que traz vantagem para os negócios.

Conheça os serviços de análise de dados
Dê o próximo passo

Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.

  1. Explore soluções de gerenciamento de dados
  2. Conheça o watsonx.data