O que é descoberta de dados?

Descoberta de dados, definida

A descoberta de dados é o processo de coletar, avaliar e explorar dados de múltiplas fontes, muitas vezes díspares. Ele ajuda as organizações a descobrir dados ocultos ou isolados, garantindo que nenhuma informação valiosa escape da percepção ou da análise.

Durante a descoberta de dados, os profissionais de dados identificam e extraem dados brutos de todos os bancos de dados, aplicações, arquivos internos e outros repositórios de uma organização. Elas examinam as características, o formato, a linhagem, a qualidade e os usos potenciais dos dados (um processo chamado de criação de perfis de dados), estabelecendo as bases para uma ingestão de dados bem-sucedida. Os insights descobertos durante o processo de descoberta de dados são usados para informar e otimizar decisões de negócios em áreas como estratégias de marketing, experiências do cliente e operações da cadeia de suprimentos.

A análise exploratória de dados (EDA) é uma abordagem amplamente usada para a descoberta de dados. Na EDA, métodos e algoritmos estatísticos são implementados para investigar conjuntos de dados e resumir suas principais características. Essas descobertas ajudam os cientistas de dados a determinar a melhor forma de manipular as fontes de dados para obter insights valiosos.

Além de ajudar as organizações a identificar e aproveitar todas as suas fontes de dados, a descoberta de dados também aprimora a segurança de dados, melhora a precisão de dados e auxilia na conformidade com determinadas regulamentações de privacidade de dados. Quando ampliada por técnicas de inteligência artificial (IA) e aprendizado de máquina (ML), pode dar às organizações ainda maior visibilidade e controle sobre seus ativos de dados.

Sua equipe apanharia o próximo dia zero a tempo?

Junte-se aos líderes de segurança que confiam no boletim informativo Think para receber notícias selecionadas sobre IA, cibersegurança, dados e automação. Aprenda rápido com tutoriais e explicações de especialistas, entregues diretamente em sua caixa de entrada. Consulte a Declaração de privacidade da IBM.

Sua assinatura será entregue em inglês. Você pode encontrar um link para cancelar a assinatura em todos os boletins informativos. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

https://www.ibm.com/br-pt/privacy

Descoberta de dados versus análise de dados tradicional

À primeira vista, a descoberta de dados e a análise de dados podem parecer sinônimos. No entanto, são processos distintos de gerenciamento de dados que funcionam melhor quando usados juntos.

A descoberta de dados frequentemente ocorre primeiro. É uma fase exploratória que ajuda as organizações a localizar e entender todos os dados disponíveis, inclusive as informações isoladas ou ocultas. Nessa etapa, os analistas podem não saber exatamente quais dados estão procurando.

Quando encontrarem os dados, poderão iniciar a análise de dados. Esse processo envolve o uso de técnicas e consultas específicas para interpretar os dados e descobrir insights significativos.

Considere esta analogia: a descoberta de dados é semelhante à pesquisa de ingredientes em sua cozinha, incluindo aqueles escondidos no fundo do armário. A análise de dados envolve o uso dos ingredientes que você encontrou para criar uma refeição nutritiva e de alta qualidade. Quanto mais completa for sua descoberta, melhor será o resultado.

Por que a descoberta de dados é importante?

Os dados são críticos para as empresas modernas. Todos os dias, elas coletam grandes quantidades de informações de um ecossistema em expansão de fontes que abrangem departamentos, unidades de negócios e regiões geográficas. Esses dados são manipulados por vários usuários e armazenados em repositórios de dados e dispositivos de funcionários díspares.

Mas, quando os dados estão em toda parte, fica mais difícil encontrá-los, acessá-los e usá-los. Na verdade, estima-se que 68% dos dados empresariais permaneçam sem uso. A falha em analisar todos os tipos de dados leva a insights perdidos e oportunidades inexploradas. Por exemplo, e se a chave para melhorar a retenção de clientes estiver oculta em notas de reuniões e encadeamentos de e-mails, mas a equipe de vendas confiar apenas nos dados de seu sistema de gerenciamento de relacionamento com o cliente (CRM)?

Não saber quais dados você tem e onde eles residem também expõe a organização a riscos, como a não conformidade com a crescente lista de regulamentações de privacidade de dados que regem os dados pessoais. No entanto, a descoberta de dados é uma preocupação tanto com a privacidade de dados quanto com a segurança de dados. Se você não sabe onde estão seus dados confidenciais, também não pode protegê-los adequadamente.  

Benefícios da descoberta de dados

A descoberta de dados ajuda as organizações a explorar e aproveitar todos os dados disponíveis, apoiando os seguintes benefícios:

  • Melhora na tomada de decisões
  • Maior precisão e qualidade de dados
  • Segurança de dados reforçada
  • Conformidade completa
Melhora na tomada de decisões

Ao revelar dados inexplorados, a descoberta de dados oferece novos caminhos para a exploração de dados. Os stakeholders podem encontrar padrões e correlações ocultos, insights praticáveis e novas tendências de mercado. Como resultado, as empresas podem tomar decisões mais bem informadas e otimizar o desempenho para alcançar a eficiência operacional.

Maior precisão e qualidade de dados

Com uma visão holística do inventário de dados da organização, é mais fácil para os analistas de dados identificar problemas de qualidade de dados, como dados inconsistentes ou valores discrepantes em conjuntos de dados. Alcançar um nível mais alto de precisão pode ajudar a minimizar falsos positivos e negativos durante a classificação de dados.

Segurança de dados reforçada

A descoberta de dados ajuda a garantir que todos os dados confidenciais de uma organização (como informação de identificação pessoal (PII) e propriedade intelectual) sejam identificados e localizados. Isso facilita para as equipes de segurança a aplicação de medidas personalizadas de cibersegurança. (Para obter mais informações, consulte: “Descoberta de dados na segurança de dados”.)

Conformidade completa

Localizar onde todos os dados residem pode ajudar as organizações a entender a linhagem de dados e aplicar regras específicas de proteção, compartilhamento e acesso a informações confidenciais. Por exemplo, a descoberta de dados pode ajudar as organizações a determinar quando os dados se enquadram no Regulamento Geral de Proteção de Dados (GDPR) ou na California Consumer Privacy Act (CCPA).

Descoberta de dados na segurança de dados

Dados não descobertos e não gerenciados (frequentemente chamados de dados ocultos) representam um risco significativo à segurança, especialmente quando contêm informações confidenciais. De acordo com o relatório do custo das violações de dados de 2024 da IBM, as violações de dados envolvendo dados ocultos representam um terço de todos os incidentes e custam em média US$ 5,27 milhões — 16% a mais do que o custo médio das violações calculado no relatório.

O essencial para proteger todos os dados organizacionais é entender como e onde eles entram na rede e como e onde são compartilhados e armazenados. Portanto, processos robustos de descoberta de dados são elementos cruciais da segurança de dados e da proteção de dados. O uso de IA e ML para treinar sistemas para identificar automaticamente arquivos que contêm dados confidenciais pode impulsionar ainda mais esses esforços.

As práticas de descoberta de dados também podem ajudar a reduzir a superfície de ataque de uma organização. Uma superfície de ataque são todas as vulnerabilidades, caminhos ou métodos de uma organização que hackers podem usar para obter acesso não autorizado a dados confidenciais ou lançar um ataque cibernético. Por meio da descoberta de dados, os dados não utilizados ou duplicados são eliminados, deixando apenas os dados confidenciais mais necessários. Assim, as organizações podem priorizar e adaptar as medidas de segurança de dados para esses ativos críticos.

Como funciona a descoberta de dados?

A descoberta de dados é uma combinação de processos técnicos, ferramentas e estratégias que podem ser agrupados nas seguintes etapas:

  • Escopo do objetivo
  • Coleta e integração de dados
  • Data preparation
  • Visualização de dados
  • Análise de dados

Escopo do objetivo

Essa primeira etapa normalmente envolve a definição das metas do processo de descoberta de dados. Esses objetivos devem estar alinhados com a estratégia geral de dados da organização. Aqui, os líderes da diretoria executiva e das unidades de negócios trabalham juntos para determinar quais insights desejam encontrar, o que ajuda a orientar a exploração de dados.

Coleta e integração de dados

Em seguida, são coletados dados de várias fontes usando métodos de extração, como consulta a bancos de dados, extração de arquivos remotos ou recuperação de dados por meio de interfaces de programação de aplicativos (APIs). Os dados coletados são ingeridos, integrados e transformados em um formato unificado e consistente para residir em um catálogo de dados (um inventário detalhado dos ativos de dados dentro de uma organização).

Preparação de dados

Depois de coletados e combinados, os dados passam por vários processos de garantia de qualidade para ajudar a garantir que os dados estejam livres de erros, inconsistências e outros problemas de integridade de dados. Essa preparação pode incluir validação de dados, limpeza de dados e técnicas de padronização.

Visualização de dados

As equipes de dados podem criar representações visuais dos dados preparados (como gráficos, tabelas, dashboards e infográficos) que exibem relações de dados complexas em interfaces fáceis de usar.

Análise de dados

As ferramentas de visualização de dados podem até ser compatíveis com a análise de dados de autoatendimento. Essas ferramentas permitem que usuários não técnicos acessem e analisem visualizações, ajudando a impulsionar a tomada de decisão baseada em dados. Análise de dados avançada também pode ser aplicada nesse estágio, que utiliza modelagem preditiva e outras técnicas sofisticadas para gerar previsões.

Durante todo o processo, uma forte gestão de dados ajuda a garantir a integridade de dados e a segurança dos dados. Ela define e implementa as políticas, as normas e os procedimentos para coleta, propriedade, armazenamento, processamento e uso de dados.

Ferramentas de descoberta de dados de IA e ML

O uso de IA, ML e processamento de linguagem natural (NLP) na descoberta de dados acrescenta velocidade e inteligência ao processo. Essas tecnologias proporcionam às organizações maior visibilidade e controle sobre seus dados. Exemplos e casos de uso importantes incluem:

  • Descoberta automatizada de dados: essas ferramentas realizam varreduras automáticas em dispositivos de rede e sistemas de armazenamento de dados, indexando novos dados e metadados quase em tempo real, para uma identificação de ativos mais rápida.

  • Classificação automatizada de dados: essa funcionalidade automatiza a marcação de novos dados com base em regras predefinidas, como níveis de confidencialidade, controles de acesso a dados e regras de conformidade.

  • Pesquisa inteligente: a pesquisa impulsionada por IA usa NLP para interpretar as consultas de pesquisa do usuário, entender a intenção e, em seguida, fornecer resultados de dados relevantes. Os assistentes de IA podem fornecer orientação intuitiva em linguagem natural.

  • NLP para dados não estruturados: ferramentas de NLP, incluindo grandes modelos de linguagem (LLMs), podem extrair dados estruturados de fontes de dados não estruturados, como documentos, e-mails e transcrições de chats.

Integrando IA, ML e NLP em fluxos de trabalho de descoberta de dados acelera o tempo de obtenção de insights, aumenta a precisão e pode ajudar a fortalecer a conformidade regulatória. À medida que os volumes de dados continuam crescendo, a descoberta de dados impulsionada por IA se tornará um recurso essencial e uma vantagem competitiva.

Autores

Alexandra Jonker

Staff Editor

IBM Think

Soluções relacionadas
Soluções de segurança e proteção de dados

Proteja os dados em vários ambientes, cumpra os regulamentos de privacidade e simplifique a complexidade operacional.

    Conheça as soluções de segurança de dados
    IBM Guardium

    Conheça o IBM Guardium, uma família de software de segurança de dados que protege os dados confidenciais no local e na nuvem.

     

      Explore o IBM Guardium
      Serviços de segurança de dados

      A IBM oferece serviços abrangentes de segurança de dados para proteger dados corporativos, aplicações e IA.

      Explore os serviços de segurança de dados
      Dê o próximo passo

      Proteja os dados da sua organização em toda a nuvem híbrida e simplifique os requisitos de conformidade com soluções de segurança de dados.

      Conheça as soluções de segurança de dados Agende uma demonstração em tempo real