O que é dark data?

O que é dark data?

Os dados obscuros são as informações que as organizações acumulam, mas que muitas vezes nunca são usadas para análise ou tomada de decisão.

Hoje, a maioria das empresas armazena grandes quantidades de dados obscuros. Em uma pesquisa global da Splunk com mais de 1.300 tomadores de decisão de negócios e TI, 60% dos entrevistados relataram que metade ou mais dos dados de suas organizações são considerados obscuros. Um terço dos entrevistados relatou que essa quantidade chega a 75% ou mais.1

Dados obscuros se acumulam porque as organizações adotaram a ideia de que é valioso armazenar todas as informações que podem capturar em grandes data lakes. Isso se deve, em parte, ao advento do armazenamento de baixo custo, que tornou fácil justificar armazenar tantos dados - caso um dia eles se tornem valiosos.

No final, a maioria das empresas nunca usa nem uma fração do que armazena, porque o reservatório de armazenamento não documenta adequadamente os rótulos de metadados, alguns dos dados estão em um formato que as ferramentas integradas não conseguem ler ou os dados não são recuperáveis por meio de uma consulta.

Os dados obscuros são um grande limitador na produção de boas análises, porque a qualidade de qualquer análise de dados depende do conjunto de informações acessíveis às ferramentas analíticas, tanto prontamente quanto em detalhes completos.

Outros problemas com os dados obscuros incluem a criação de responsabilidades, altos custos de armazenamento e oportunidades perdidas, devido ao fato de as equipes não perceberem quais dados estão potencialmente disponíveis para elas.

Emblema dos 50 melhores produtos de gerenciamento de TI

IBM® watsonx.governance

Reconhecido como um dos melhores produtos de gerenciamento de TI no G2 Best Software Awards 2026

Por que os dados se tornam obscuros

Existem várias causas para que os dados de uma organização se tornem obscuros, incluindo:

  • Falta de consciência: os dados obtidos durante operações normais muitas vezes se tornam obscuros porque as organizações, ou não estão cientes de sua existência ou não entendem seu valor ou relevância.

  • Dados presos em silos: quando diferentes departamentos dentro de uma organização coletam e armazenam dados de forma independente, isso pode levar à fragmentação e ao isolamento dos dados. Esses silos de dados podem não ser acessíveis ou visíveis para outras equipes, que potencialmente achariam os dados valiosos.

  • Falta de governança de dados: sem um robusto framework de governança de dados, as organizações podem ter dificuldades para gerenciar e rastrear dados de maneira eficaz em todo o seu ecossistema. Isso faz com que os dados se tornem desorganizados, perdidos e inutilizáveis.

  • Sistemas legados: à medida que as organizações atualizam seus softwares e hardwares, sistemas mais antigos podem ser aposentados ou perder relevância. Os dados armazenados nesses sistemas legados se tornam obscuros se não puderem ser integrados às ferramentas modernas de análises da organização.

  • Integração de dados incompleta: processos de integração de dados incompletos ou ineficazes podem resultar em lacunas e inconsistências nos dados. Isso pode tornar certos conjuntos de dados inacessíveis ou não devidamente conectados a outras fontes de dados.

  • Mudança nas prioridades de negócios: à medida que as prioridades de negócios evoluem, certos conjuntos de dados podem se tornar menos relevantes ou sair de foco. Dados que antes eram usados ativamente podem ser deixados no escuro à medida que os objetivos organizacionais mudam.

  • Recursos e alfabetização limitados: organizações com recursos limitados podem priorizar a coleta e o armazenamento de dados em detrimento da análise de dados. Além disso, a falta de alfabetização de dados entre os funcionários pode dificultar a descoberta e a utilização de dados valiosos.

  • Problemas de qualidade de dados: baixa qualidade de dados, como dados imprecisos ou incompletos, podem ser desconsiderados ou ignorados. Dados considerados não confiáveis têm menor probabilidade de serem usados, tornando-os efetivamente obscuros.

  • Finalidades de conformidade normativa: muitos padrões de conformidade e governança obrigam as organizações a seguir normas rígidas sobre o tempo de armazenamento de dados confidenciais. Muitas vezes, elas acabam armazenando os dados por mais tempo do que o necessário, pois não conseguem rastrear quais dados sensíveis deveriam ser destruídos.

  • Dados redundantes, obsoletos e triviais (ROT): o ROT é criado quando os funcionários salvam múltiplas cópias das mesmas informações, informações desatualizadas e informações extras que não ajudam a organização a atingir seus objetivos.

Tipos de dados obscuros

Quanto à sua capacidade de descoberta para iniciativas completas e oportunas de análise de dados, os dados obscuros podem ser dados estruturados, não estruturados ou semiestruturados.

Dados estruturados são informações adicionadas a campos claramente definidos de planilhas ou banco de dados antes de serem armazenados.

Arquivos de log de servidores, dados de sensores da Internet das Coisas (IoT) , bancos de dados de gerenciamento de relacionamento com o cliente (CRM) e sistemas de planejamento de recursos empresariais (ERP) são exemplos de dados obscuros criados a partir de fontes de dados estruturados.

Embora a maioria dos dados sensíveis — como extratos bancários eletrônicos, registros médicos e dados criptografados de clientes — geralmente estejam em formato estruturado, sua visualização e categorização são difíceis devido a questões de permissão.

Diferentemente dos dados estruturados, os dados não estruturados incluem informações que não podem ser organizadas em bancos de dados ou planilhas para análise sem conversão, codificação, classificação e estruturação.

Correspondências por e-mail, PDFs, documentos de texto, postagens em redes sociais, gravações de centrais de atendimento, logs de bate-papo e imagens de câmeras de segurança são exemplos de dados obscuros criados a partir de fontes de dados não estruturados.

Dados semiestruturados são dados não estruturados que contêm algumas informações em campos de dados definidos. Embora não possua a mesma facilidade de descoberta de dados obscuros que os dados estruturados, é possível pesquisá-los ou catalogá-los.

Exemplos incluem código HTML, faturas, gráficos, tabelas e documentos XML.

AI Academy

O gerenciamento de dados é o segredo para a IA generativa?

Explore por que é essencial ter dados de alta qualidade para utilizar a IA generativa com qualidade.

Os custos dos dados obscuros

Os custos de armazenamento de dados obscuros podem ser significativos e se estender bem além do custo financeiro direto de seu armazenamento. Os custos diretos e indiretos incluem:

Custos de armazenamento de dados

Armazenar dados, mesmo que não sejam usados ativamente, requer infraestrutura de armazenamento física ou digital. Isso pode incluir servidores, data centers, soluções de armazenamento em nuvem e sistemas de backup. Quanto mais dados em seu ecossistema, mais capacidade de armazenamento de dados você precisa, o que leva ao aumento dos custos de infraestrutura.

Custos de responsabilidade

Os governos introduziram uma série de leis globais de privacidade nos últimos anos, que se aplicam a todos os dados, até mesmo aos dados que não são usados nos repositórios de análise.

Custos de oportunidade

Diversas empresas deixam de aproveitar oportunidades por não usarem esses dados. Embora seja uma boa prática se livrar de dados obscuros que não são utilizáveis, devido aos riscos e custos, vale a pena primeiro analisar quais dados estão disponíveis para determinar o que pode ser aproveitado.

Custos de ineficiência

Gerenciar grandes volumes de dados, incluindo dados obscuros, pode desacelerar os processos de recuperação e análise de dados. Funcionários podem gastar mais tempo procurando informações relevantes, levando à redução da produtividade e ao aumento dos custos de mão de obra.

Custos de risco

Os dados obscuros podem representar riscos relacionados à cibersegurança insuficiente, violações de dados, não conformidade com regulamentações e perda de dados. Esses riscos podem resultar em danos à reputação e consequências financeiras.

Problemas de qualidade de dados e dados obscuros

Às vezes, dados obscuros são criados devido a problemas de qualidade de dados.

Por exemplo, uma transcrição de uma gravação de áudio é gerada automaticamente, mas a IA que criou a transcrição comete alguns erros. No entanto, alguém mantém a transcrição, pensando que irá corrigi-la em algum momento, o que não acontece.

Quando as organizações tentam limpar dados de má qualidade, às vezes não identificam o que está causando o problema. Sem o entendimento correto, é impossível garantir que o problema de qualidade de dados não continue acontecendo no futuro.

Essa situação se torna cíclica, porque, em vez de simplesmente aplicar políticas de exclusão de dados obscuros que estão armazenados sem nunca serem usados, as organizações deixam esses dados acumulando, contribuindo para um problema crescente de qualidade de dados.

Felizmente, existem três medidas de gerenciamento de qualidade de dados que a organização pode tomar para ajudar a atenuar este problema:

  1. Analisar e identificar a situação atual: para priorizar os problemas, primeiro identifique todas as questões atuais, os padrões de dados existentes e o impacto nos negócios.

  2. Prevenir a recorrência de dados ruins: avalie a causa raiz de cada problema e aplique os recursos para resolvê-lo de maneira sustentável, para que não volte a acontecer.

  3. Comunicar frequentemente durante o processo: compartilhe o que está acontecendo, o que a equipe está fazendo, o impacto desse trabalho e como esses esforços estão conectados aos objetivos empresariais.

Como lançar luz sobre os dados obscuros

Apesar dos custos e problemas de qualidade de dados obscuros, há pontos positivos. Como afirma a Splunk, “dados obscuros podem ser um dos maiores recursos inexplorados de uma organização.”2

Ao adotar uma abordagem proativa para gerenciar dados obscuros, as organizações podem iluminar os dados obscuros. Isso não apenas reduz responsabilidades e custos, mas também dá às equipes os recursos de que precisam para descobrir insights a partir de dados ocultos.

Ao lidar com dados obscuros e potencialmente usá-los para tomar decisões baseadas em dados, há várias melhores práticas a serem seguidas:

Eliminar os silos

Os dados obscuros muitas vezes surgem devido a silos dentro da organização. Uma equipe cria dados que poderiam ser úteis para outra, mas essa outra equipe não tem conhecimento deles. Eliminar esses silos torna esses dados acessíveis para a equipe que precisa deles. Dados não utilizados tornam-se recursos de imenso valor.

Aprimorar o gerenciamento de dados

É importante entender quais dados existem dentro da organização. Esse trabalho começa com a classificação de todos os dados da organização para obter uma visão completa e precisa. A partir daí, as equipes podem começar a organizar melhor seus dados com o objetivo de facilitar o acesso e o uso pelas pessoas em diferentes equipes.

Estabelecer políticas de gestão de dados

A introdução de uma política de governança de dados pode ajudar a resolver o desafio a longo prazo. Esta política deve abranger como todos os dados recebidos serão avaliados e oferecer diretrizes claras sobre o que deve ser retido (e organizado para manter um gerenciamento de dados claro), arquivado ou destruído. Uma parte importante dessa política é o rigor sobre quais dados devem ser destruídos e quando. A aplicação de práticas de governança de dados e avaliações regulares pode ajudar a minimizar a quantidade de dados obscuros que não serão utilizados.

Usar ferramentas de ML e IA para analisar dados

Para ajudar na descoberta de dados obscuros, o aprendizado de máquina (ML) e a inteligência artificial (IA) podem realizar o trabalho pesado de categorizar esses dados, executando análises em dados que possam conter insights valiosos. Além disso, a automação com ML pode ajudar com as regulamentações de conformidade de privacidade de dados, mascarando automaticamente informações sensíveis dos dados armazenados.

Techsplainers | Podcast

Ouça: “O que são dados obscuros?”

Siga o Techsplainers: Spotify e Apple Podcasts

Renderização 3D de uma espiral de vários ícones alinhados, como uma câmera, um botão de volume e uma prancheta
Soluções relacionadas
IBM StreamSets

Crie e gerencie pipelines de dados de streaming inteligentes por meio de uma interface gráfica intuitiva, facilitando a integração sem dificuldades dos dados em ambientes híbridos e de multinuvem.

Explore o StreamSets
IBM watsonx.data™

O watsonx.data permite escalar a análise de dados e a IA com todos os seus dados, onde quer que estejam, por meio de um armazenamento de dados aberto, híbrido e governado.

Conheça o watsonx.data
Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM Consulting, construindo uma organização baseada em insights, que traz vantagem para os negócios.

Conheça os serviços de análise de dados
Dê o próximo passo

Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.

  1. Explore soluções de gerenciamento de dados
  2. Conheça o watsonx.data
Notas de rodapé

The State of Dark Data, Splunk, 2019

Dark Data: Discovery, Uses & Benefits of Hidden Data , Splunk, 03 de agosto de 2023