O que é aquisição de dados?

Pontos e linhas azuis confusas que se estendem para o lado direito

Autores

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

O que é aquisição de dados?

A aquisição de dados é o processo de obter dados de várias fontes usando diferentes métodos. Representa uma etapa crucial no pipeline de ingestão de dados, seguida pela validação, transformação e carregamento de dados.
 

Os fundamentos modernos dos negócios — como tomada de decisão baseada em dados, análise de dados e inteligência artificial (IA) — dependem da disponibilidade de grandes quantidades de dados de qualidade. A aquisição de dados recupera os dados que tornam possíveis essas decisões e tecnologias informadas. Embora o conceito possa parecer simples, a aquisição de dados pode ser complexa, especialmente na era do big data.

Os conjuntos de dados de hoje são enormes e complexos. Eles podem abranger terabytes ou petabytes, vir em formatos estruturados ou não estruturados e residir em diversas fontes. Essas complexidades introduzem desafios em relação ao gerenciamento de volumes de dados, governança e segurança durante todo o processo de aquisição.

No entanto, quando feito de forma eficaz, o processo de aquisição de dados pode ser um pipeline de combustível de alta qualidade para iniciativas estratégicas. Na verdade, um estudo da Harvard Business Review descobriu que as organizações que aproveitam com sucesso o big data e a IA superaram seus pares nas principais métricas de negócios, incluindo eficiência operacional, crescimento da receita e experiência do cliente.1

Definição alternativa de aquisição de dados

O termo "aquisição de dados" também pode se referir especificamente à coleta dos sinais físicos ou elétricos que medem condições do mundo real — normalmente, dados de sensores. Os exemplos incluem medições de temperatura, pressão e outros fenômenos físicos.

Esses sinais são processados e convertidos em valores digitais utilizáveis usando dispositivos de aquisição de dados, ou dispositivos DAQ. Esse uso é comum em campos como monitoramento ambiental,automação industrial e pesquisa científica.

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Mantenha-se atualizado sobre as tendências mais importantes e fascinantes do setor em IA, automação, dados e muito mais com o boletim informativo da Think. Consulte a declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua inscrição será entregue em inglês. Você pode encontrar um link para cancelar a inscrição em todos os boletins informativos. Você pode gerenciar suas inscrições ou cancelar a inscrição aqui. Consulte nossa declaração de privacidade da IBM para obter mais informações.

Quais são os quatro métodos de aquisição de dados?

De acordo com o US Geological Survey, há quatro métodos de aquisição de dados:2

  • Coleta de novos dados
  • Conversão ou transformação de dados legados
  • Compartilhamento ou troca de dados
  • Compra de dados
Coleta de novos dados

A coleta de dados envolve a geração de dados originais por meios diretos, como pesquisas, entrevistas, sensores ou dispositivos de Internet das coisas (IOT) . As empresas frequentemente usam essa abordagem para pesquisa de mercado ou monitoramento operacional.

Conversão ou transformação de dados legados

Esse método se concentra em recuperar os dados legados de uma organização e convertê-los em um formato padronizado e utilizável. Esse processo pode variar desde simples conversões de campo (como datas) até normalizações complexas, que podem exigir conhecimento especializado em ciência de dados .

Compartilhamento ou troca de dados

A troca de dados envolve a transferência de dados entre sistemas e organizações. Pode ocorrer por meio de programas governamentais de dados abertos, trocas de dados urbanos e provedores de dados comerciais. Os mecanismos de troca técnica incluem interfaces de programação de aplicativos (APIs), transferências de arquivos, pipelines de streaming e plataformas baseadas na nuvem.

Compra de dados

As organizações também podem comprar dados externos de mercados de dados. Essas plataformas preenchem a lacuna entre compradores e vendedores, oferecendo disponibilidade comercial, acessibilidade e benefícios escaláveis. Seus produtos de dados selecionados e prontos para uso podem ajudar a reduzir a sobrecarga da coleta de dados.

AI Academy

O gerenciamento de dados é o segredo para a IA generativa?

Explore por que é essencial ter dados de alta qualidade para utilizar a IA generativa com qualidade.

Fontes de dados comuns

As organizações podem coletar dados por meio de um número aparentemente ilimitado de fontes. Os dados podem ser estruturados e não estruturados, e internos ou externos. Algumas das fontes de dados mais comuns são:

  • Aplicativos de negócios: dados de planejamento de recursos empresariais (ERP), gerenciamento de relacionamento com o cliente (CRM) e outros sistemas

  • Redes sociais: dados de interações em tempo real de plataformas de redes sociais

  • Dados abertos: conjuntos de dados de instituições acadêmicas e governos usados para pesquisa e formulação de políticas

  • Dados públicos: dados de governos e organizações, como censos e dados econômicos

  • Dados transacionais: registros de vendas, faturas e informações de pagamentos

  • Pesquisas: dados coletados por meio de feedback de clientes ou questionários de pesquisa

  • Análise de dados da web: dados das interações de sites, como visualizações de páginas e conversões

  • Dispositivos de IoT: dados em tempo real de dispositivos conectados, como medidores ou aparelhos inteligentes

Desafios e considerações sobre aquisição de dados

As organizações que adquirem dados têm várias considerações em mente durante todo o processo de aquisição:

  • Privacidade e segurança de dados
  • Qualidade de dados
  • Compatibilidade de dados
  • Necessidades de negócios versus custos

Privacidade e segurança de dados

A privacidade de dados (também conhecida como privacidade de informações) é a ideia de que as pessoas devem ter controle sobre como as organizações coletam, armazenam e usam seus dados pessoais. Durante a aquisição, as organizações podem coletar informações de usuários, como endereços de e-mail ou dados de autenticações biométricas. É crítico que elas obtenham o consentimento dos usuários antes de processar esses dados, os protejam contra o uso indevido e forneçam aos usuários ferramentas para gerenciá-los ativamente.

Muitas empresas são legalmente obrigadas a seguir essas práticas sob regulamentações como o Regulamento Geral de Proteção de Dados (GDPR). No entanto, mesmo sem leis formais de privacidade de dados, há benefícios na implementação de medidas de privacidade de dados. Frequentemente, as práticas e ferramentas que protegem a privacidade dos usuários também ajudam a proteger as informações digitais contra acesso não autorizado, corrupção ou roubo.

Qualidade de dados

Garantir a qualidade de dados deve ser uma prioridade para as organizações que adquirem dados de uma ampla variedade de fontes. A qualidade de dados refere-se a quão bem um conjunto de dados atende aos critérios de precisão, integridade, validade, consistência, singularidade, pontualidade e relevância para a finalidade pretendida. Dados de alta qualidade apoiam a tomada de decisão precisa, justa e eficaz, que se alinha com as metas de negócios.

A importância do controle da qualidade de dados vai além das operações diárias. Dados de treinamento de alta qualidade são fundamentais para a adoção efetiva da inteligência artificial e da automação. No entanto, o conhecido ditado de IA "entra lixo, sai lixo" é amplamente aplicado — dados de baixa qualidade em qualquer caso de uso levam a saídas de baixa qualidade.

Compatibilidade de dados

Quando as organizações adquirem conjuntos de dados de diversas fontes, precisarão lidar com quaisquer problemas de compatibilidade antes de carregá-los em seus sistemas. As práticas de limpeza e padronização de dados podem garantir que os dados sigam um formato e uma estrutura consistentes, facilitando a compreensão e a análise no futuro. Por exemplo, os nomes das ruas geralmente contêm direções, como Norte ou Oeste. A padronização formataria esses valores para “N” ou “W”.

Organizações em setores altamente regulamentados (como finanças ou saúde) podem enfrentar regras e regulamentações adicionais de normas de dados. A Lei de portabilidade e responsabilidade de planos de saúde (HIPAA), por exemplo, estabeleceu conjuntos de códigos padrão para diagnósticos e procedimentos, criando uma linguagem comum para dados de saúde.

Necessidades de negócios versus custos

Antes de adquirir dados, as organizações devem determinar suas necessidades de dados e se o custo de aquisição é justificado. Além de quaisquer custos relacionados à limpeza e padronização de dados, as empresas devem considerar preços, taxas de licenciamento (se aplicável) e quaisquer custos adicionais descritos nos contratos de compra.

A aquisição eficiente de dados também exige uma infraestrutura de dados robusta que possa manipular, gerenciar e armazenar dados. As organizações podem precisar investir em áreas como armazenamento de dados, análise, segurança e governança de dados para ajudar a garantir que os dados adquiridos sejam armazenados, governados e usados adequadamente.

Aquisição de dados é o mesmo que coleta de dados?

Embora frequentemente usados de forma intercambiável, aquisição de dados e coleta de dados têm significados distintos.

A coleta de dados é o processo de reunir informações brutas diretamente de várias fontes, normalmente realizada por cientistas e analistas de dados. Ao contrário, a aquisição de dados é um termo mais amplo que inclui a coleta de dados. No entanto, também envolve a obtenção de dados por meio de métodos adicionais, como parcerias, contratos de licenciamento, compras de dados e transformação de dados legados.

O que é aquisição de dados no aprendizado de máquina?

De acordo com 72% dos CEOs de melhor desempenho, obter uma vantagem competitiva depende de ter a IA generativa mais avançada. Mas mesmo os algoritmos de aprendizado de máquina mais sofisticados são tão eficazes quanto os dados nos quais são treinados. Dados de alta qualidade são essenciais para que os sistemas de IA aprendam, se adaptem e ofereçam valor real.

Na prática, no entanto, adquirir dados relevantes suficientes para treinar modelos de IA pode ser um desafio. Preocupações com a privacidade, altos custos e restrições legais ou regulatórias podem limitar o acesso a fontes e métodos valiosos de aquisição de dados, como raspagem da web ou conjuntos de dados públicos. Em alguns casos, as regulamentações podem proibir totalmente a coleta de tipos específicos de dados para casos de uso de IA.

Para aliviar esses obstáculos, muitas organizações estão recorrendo a dados sintéticos — dados gerados artificialmente que imitam dados do mundo real. Criados por meio de metodologias estatísticas ou tecnologias avançadas de inteligência artificial , como deep learning e IA generativa, os dados sintéticos oferecem várias vantagens: maior personalização, aquisição mais eficiente, maior privacidade de dados e dados geralmente mais variados.

Soluções relacionadas
IBM StreamSets

Crie e gerencie pipelines de dados de streaming inteligentes por meio de uma interface gráfica intuitiva, facilitando a integração sem dificuldades dos dados em ambientes híbridos e de multinuvem.

Explore o StreamSets
IBM watsonx.data™

O watsonx.data permite escalar a análise de dados e a IA com todos os seus dados, onde quer que estejam, por meio de um armazenamento de dados aberto, híbrido e governado.

Conheça o watsonx.data
Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM Consulting, construindo uma organização baseada em insights, que traz vantagem para os negócios.

Conheça os serviços de análise de dados
Dê o próximo passo

Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.

Explore soluções de gerenciamento de dados Conheça o watsonx.data
Notas de rodapé

1Big on data: Study shows why data-driven companies are more profitable than their peers”, estudo da Harvard Business Review realizado para o Google Cloud, 24 de março de 2023.

2Data Acquisition Methods,” The US Geological Survey.