Início
topics
Dados obscuros (dark data)
De acordo com a Gartner, dados obscuros referem-se aos ativos de informação que as organizações coletam, processam e armazenam durante suas atividades comerciais regulares, mas que geralmente não são utilizados para outros fins, como análises, relacionamentos comerciais ou monetização direta1.
Hoje, a maioria das empresas armazena grandes quantidades de dados obscuros. Em uma pesquisa global da Splunk com mais de 1.300 tomadores de decisão de negócios e TI, 60% dos entrevistados relataram que metade ou mais dos dados de suas organizações são considerados obscuros. Um terço completo dos entrevistados relatou que essa quantidade chega a 75% ou mais2.
Os dados obscuros se acumulam porque as organizações adotaram a ideia de que é valioso armazenar todas as informações que podem capturar em grandes data lakes. Isso se deve em parte ao advento de armazenamento de baixo custo, que tornou fácil justificar o armazenamento de tantos dados, no caso de um dia eles se tornarem valiosos.
No final, a maioria das empresas nunca usa nem uma fração do que armazena, porque o repositório de armazenamento não documenta adequadamente os rótulos de metadados, alguns dos dados estão em um formato que as ferramentas integradas não conseguem ler, ou os dados não são recuperáveis por meio de uma consulta.
Os dados obscuros são um grande limitador na produção de boas análises, porque a qualidade de qualquer análise de dados depende do conjunto de informações acessíveis às ferramentas analíticas, tanto prontamente quanto em detalhes completos.
Outros problemas com os dados obscuros incluem a criação de responsabilidades, altos custos de armazenamento e oportunidades perdidas, devido ao fato de as equipes não perceberem quais dados estão potencialmente disponíveis para elas.
Saiba mais sobre as barreiras à adoção da IA, particularmente a falta de soluções de governança e gerenciamento de riscos da IA.
Existem várias causas para que os dados de uma organização se tornem obscuros, incluindo:
Em termos de sua capacidade de descoberta para iniciativas de análise de dados oportunas e completas, os dados obscuros podem ser estruturados, não estruturados ou semiestruturados.
Dados estruturados são informações adicionadas a campos de planilhas ou bancos de dados claramente definidos antes de serem armazenadas.
Arquivos de log de servidor, dados de sensores da Internet das coisas (IoT), bancos de dados de gerenciamento de relacionamento com clientes (CRM) e sistemas de planejamento de recursos empresariais (ERP) são exemplos de dados obscuros criados a partir de fontes de dados estruturados.
Embora a maioria dos dados sensíveis, como extratos bancários eletrônicos, registros médicos e dados de clientes criptografados, estejam tipicamente em forma estruturada, é difícil visualizá-los e categorizá-los devido a questões de permissão.
Diferentemente dos dados estruturados, dados não estruturados incluem informações que não podem ser organizadas em bancos de dados ou planilhas para análise sem conversão, codificação, classificação e estruturação.
Correspondências por e-mail, PDFs, documentos de texto, postagens em redes sociais, gravações de centrais de atendimento, logs de bate-papo e imagens de câmeras de segurança são exemplos de dados obscuros criados a partir de fontes de dados não estruturados.
Dados semiestruturados são dados não estruturados que contêm algumas informações em campos de dados definidos. Embora não ofereçam a mesma facilidade de descoberta que os dados estruturados, ainda podem ser pesquisados ou catalogados.
Exemplos incluem código HTML, faturas, gráficos, tabelas e documentos XML.
Os custos de armazenamento de dados obscuros podem ser significativos e se estender bem além do custo financeiro direto de seu armazenamento. Os custos diretos e indiretos incluem:
Armazenar dados, mesmo que não sejam usados ativamente, requer infraestrutura de armazenamento física ou digital. Isso pode incluir servidores, data centers, soluções de armazenamento em nuvem e sistemas de backup. Quanto mais dados você tiver em seu ecossistema, mais capacidade de armazenamento de dados será necessária, o que leva ao aumento dos custos de infraestrutura.
Os governos introduziram uma série de leis globais de privacidade nos últimos anos, que se aplicam a todos os dados, até mesmo aos dados que não são usados nos repositórios de análise.
Diversas empresas deixam de aproveitar oportunidades por não usarem esses dados. Embora seja uma boa prática se livrar de dados obscuros que não são utilizáveis, devido aos riscos e custos, vale a pena primeiro analisar os dados disponíveis para determinar o que pode ser aproveitado.
Gerenciar grandes volumes de dados, incluindo dados obscuros, pode desacelerar os processos de recuperação e análise de dados. Funcionários podem gastar mais tempo procurando informações relevantes, levando à redução da produtividade e ao aumento dos custos de mão de obra.
Os dados obscuros podem representar riscos relacionados à cibersegurança insuficiente, violações de dados, não conformidade com regulamentações e perda de dados. Esses riscos podem resultar em danos à reputação e consequências financeiras.
Às vezes, os dados obscuros são criados devido a problemas de qualidade de dados.
Por exemplo, uma transcrição de uma gravação de áudio é gerada automaticamente, mas a IA que criou a transcrição comete alguns erros. No entanto, alguém mantém a transcrição, pensando que irá resolvê-la em algum momento, o que nunca faz.
Quando as organizações tentam limpar dados de má qualidade, às vezes não identificam o que está causando o problema. Sem o entendimento correto, é impossível garantir que o problema de qualidade de dados não continue acontecendo no futuro.
Essa situação se torna cíclica, porque, em vez de simplesmente aplicar políticas de exclusão de dados obscuros que estão armazenados sem nunca serem usados, as organizações deixam esses dados acumulando, contribuindo para um problema crescente de qualidade de dados.
Felizmente, existem três etapas para o gerenciamento de qualidade de dados que as organizações podem seguir para ajudar a aliviar esse problema:
Apesar dos custos e problemas de qualidade dos dados obscuros, há pontos positivos.Como a Splunk afirma, "dados obscuros podem ser um dos maiores recursos inexplorados de uma organização"3.
Ao adotar uma abordagem proativa para gerenciar dados obscuros, as organizações podem iluminar os dados obscuros. Isso não apenas reduz responsabilidades e custos, mas também dá às equipes os recursos de que precisam para descobrir insights a partir de dados ocultos.
Quando se trata de lidar com dados obscuros e potencialmente usá-los para tomar decisões mais bem fundamentadas em dados, há várias práticas recomendadas a serem seguidas:
Eliminar os silos
Os dados obscuros muitas vezes surgem devido a silos dentro da organização. Uma equipe cria dados que poderiam ser úteis para outra, mas essa outra equipe não tem conhecimento deles. Eliminar esses silos torna esses dados acessíveis para a equipe que precisa deles. Dados não utilizados se tornam recursos de imenso valor.
Aprimorar o gerenciamento de dados
É importante entender quais dados existem dentro da organização. Esse esforço começa com a classificação de todos os dados na organização para obter uma visão completa e precisa. A partir daí, as equipes podem começar a organizar melhor seus dados com o objetivo de facilitar o acesso e o uso pelas pessoas em diferentes equipes.
Estabelecer políticas de governança de dados
A introdução de uma política de governança de dados pode ajudar a resolver o desafio a longo prazo. Essa política deve cobrir como todos os dados que chegam à organização são revisados e oferecer diretrizes claras sobre o que deve ser mantido (e organizado, para garantir um gerenciamento claro dos dados), arquivado ou destruído. Uma parte importante dessa política é ser rigoroso sobre quais dados devem ser destruídos e quando. Aplicar a governança de dados e revisar regularmente as práticas pode ajudar a minimizar a quantidade de dados obscuros que nunca serão utilizados.
Usar ferramentas de ML e IA para analisar dados
Para ajudar a descobrir dados obscuros, o aprendizado de máquina (ML) e a inteligência artificial (IA) podem realizar a tarefa pesada de categorizar dados obscuros, analisando-os para identificar insights valiosos. Além disso, a automação com ML pode ajudar com as regulamentações de conformidade de privacidade de dados, removendo automaticamente informações sensíveis dos dados armazenados.
O IBM® Databand é um software de observabilidade para pipelines de dados e armazéns de dados que coleta automaticamente metadados para construir bases históricas, detectar anomalias e priorizar alertas para remediar problemas de qualidade de dados.
Com suporte para os padrões ETL e ELT, o IBM® DataStage® oferece integração de dados flexível e quase em tempo real, tanto no local quanto na nuvem.
Um catálogo de dados inteligente para a era da IA, o IBM® O Knowledge Catalog permite acessar, organizar, categorizar e compartilhar dados e ativos de conhecimento, independentemente de onde estejam armazenados.
Saiba o que é ciência de dados e como ela pode desbloquear insights empresariais e acelerar a transformação digital, enquanto capacita a tomada de decisões baseada em dados.
Saiba o que é IA, seus diferentes tipos, a história da IA e por que a IA generativa acelerou drasticamente sua adoção nas empresas.
Descubra por que dados de alta qualidade são essenciais para tomar decisões bem informadas, realizar análises precisas e desenvolver estratégias eficazes.
Toda empresa acumula dados obscuros. Saiba como as ferramentas de gerenciamento podem transformar esses dados de uma responsabilidade onerosa em um recurso valioso repleto de oportunidades inexploradas.
1 Glossário da Gartner (link fora de ibm.com), Gartner
2 The State of Dark Data (link fora de ibm.com), Splunk, 2019
3 Dark Data: Discovery, Uses & Benefits of Hidden Data (link fora de ibm.com), Splunk, 3 de agosto de 2023