De acordo com a Gartner, dados obscuros referem-se aos ativos de informação que as organizações coletam, processam e armazenam durante suas atividades comerciais regulares, mas que geralmente não são utilizados para outros fins, como análise de dados, relacionamentos comerciais ou monetização direta1.
Hoje, a maioria das empresas armazena grandes quantidades de dados obscuros. Em uma pesquisa global da Splunk com mais de 1.300 tomadores de decisão de negócios e TI, 60% dos entrevistados relataram que metade ou mais dos dados de suas organizações são considerados obscuros. Um terço completo dos entrevistados relatou que essa quantidade chega a 75% ou mais.2
Os dados obscuros se acumulam porque as organizações adotaram a ideia de que é valioso armazenar todas as informações que podem capturar em grandes data lakes. Isso se deve em parte ao advento de armazenamento de baixo custo, que tornou fácil justificar o armazenamento de tantos dados, no caso de um dia eles se tornarem valiosos.
No final, a maioria das empresas nunca usa nem uma fração do que armazena, porque o repositório de armazenamento não documenta adequadamente os rótulos de metadados, alguns dos dados estão em um formato que as ferramentas integradas não conseguem ler, ou os dados não são recuperáveis por meio de uma consulta.
Os dados obscuros são um grande limitador na produção de boas análises, porque a qualidade de qualquer análise de dados depende do conjunto de informações acessíveis às ferramentas analíticas, tanto prontamente quanto em detalhes completos.
Outros problemas com os dados obscuros incluem a criação de responsabilidades, altos custos de armazenamento e oportunidades perdidas, devido ao fato de as equipes não perceberem quais dados estão potencialmente disponíveis para elas.
Existem várias causas para que os dados de uma organização se tornem obscuros, incluindo:
Em termos de sua capacidade de descoberta para iniciativas de análise de dados oportunas e completas, os dados obscuros podem ser estruturados, não estruturados ou semiestruturados.
Dados estruturados são informações adicionadas a campos de planilhas ou bancos de dados claramente definidos antes de serem armazenadas.
Arquivos de log de servidor, dados de sensores da Internet das coisas (IoT), bancos de dados de gerenciamento de relacionamento com clientes (CRM) e sistemas de planejamento de recursos empresariais (ERP) são exemplos de dados obscuros criados a partir de fontes de dados estruturados.
Embora a maioria dos dados sensíveis, como extratos bancários eletrônicos, registros médicos e dados de clientes criptografados, estejam tipicamente em forma estruturada, é difícil visualizá-los e categorizá-los devido a questões de permissão.
Diferentemente dos dados estruturados, dados não estruturados incluem informações que não podem ser organizadas em bancos de dados ou planilhas para análise sem conversão, codificação, classificação e estruturação.
Correspondências por e-mail, PDFs, documentos de texto, postagens em redes sociais, gravações de centrais de atendimento, logs de bate-papo e imagens de câmeras de segurança são exemplos de dados obscuros criados a partir de fontes de dados não estruturados.
Dados semiestruturados são dados não estruturados que contêm algumas informações em campos de dados definidos. Embora não ofereçam a mesma facilidade de descoberta que os dados estruturados, ainda podem ser pesquisados ou catalogados.
Exemplos incluem código HTML, faturas, gráficos, tabelas e documentos XML.
Os custos de armazenamento de dados obscuros podem ser significativos e se estender bem além do custo financeiro direto de seu armazenamento. Os custos diretos e indiretos incluem:
Armazenar dados, mesmo que não sejam usados ativamente, requer infraestrutura de armazenamento física ou digital. Isso pode incluir servidores, data centers, soluções de armazenamento em nuvem e sistemas de backup. Quanto mais dados você tiver em seu ecossistema, mais capacidade de armazenamento de dados será necessária, o que leva ao aumento dos custos de infraestrutura.
Os governos introduziram uma série de leis globais de privacidade nos últimos anos, que se aplicam a todos os dados, até mesmo aos dados que não são usados nos repositórios de análise.
Diversas empresas deixam de aproveitar oportunidades por não usarem esses dados. Embora seja uma boa prática se livrar de dados obscuros que não são utilizáveis, devido aos riscos e custos, vale a pena primeiro analisar os dados disponíveis para determinar o que pode ser aproveitado.
Gerenciar grandes volumes de dados, incluindo dados obscuros, pode desacelerar os processos de recuperação e análise de dados. Funcionários podem gastar mais tempo procurando informações relevantes, levando à redução da produtividade e ao aumento dos custos de mão de obra.
Os dados obscuros podem representar riscos relacionados à cibersegurança insuficiente, violações de dados, não conformidade com regulamentações e perda de dados. Esses riscos podem resultar em danos à reputação e consequências financeiras.
Às vezes, os dados obscuros são criados devido a problemas de qualidade de dados.
Por exemplo, uma transcrição de uma gravação de áudio é gerada automaticamente, mas a IA que criou a transcrição comete alguns erros. No entanto, alguém mantém a transcrição, pensando que irá resolvê-la em algum momento, o que nunca faz.
Quando as organizações tentam limpar dados de má qualidade, às vezes não identificam o que está causando o problema. Sem o entendimento correto, é impossível garantir que o problema de qualidade de dados não continue acontecendo no futuro.
Essa situação se torna cíclica, porque, em vez de simplesmente aplicar políticas de exclusão de dados obscuros que estão armazenados sem nunca serem usados, as organizações deixam esses dados acumulando, contribuindo para um problema crescente de qualidade de dados.
Felizmente, existem três etapas para o gerenciamento de qualidade de dados que as organizações podem seguir para ajudar a aliviar esse problema:
Apesar dos custos e problemas de qualidade dos dados obscuros, há pontos positivos. Como a Splunk afirma, "dados obscuros podem ser um dos maiores recursos inexplorados de uma organização"3.
Ao adotar uma abordagem proativa para gerenciar dados obscuros, as organizações podem iluminar os dados obscuros. Isso não apenas reduz responsabilidades e custos, mas também dá às equipes os recursos de que precisam para descobrir insights a partir de dados ocultos.
Quando se trata de lidar com dados obscuros e potencialmente usá-los para tomar decisões mais bem fundamentadas em dados, há várias práticas recomendadas a serem seguidas:
Os dados obscuros muitas vezes surgem devido a silos dentro da organização. Uma equipe cria dados que poderiam ser úteis para outra, mas essa outra equipe não tem conhecimento deles. Eliminar esses silos torna esses dados acessíveis para a equipe que precisa deles. Dados não utilizados tornam-se recursos de imenso valor.
É importante compreender quais dados existem dentro da organização. Esse esforço começa com a classificação de todos os dados na organização para obter uma visão completa e precisa. A partir daí, as equipes podem começar a organizar melhor seus dados com o objetivo de facilitar o acesso e o uso pelas pessoas em diferentes equipes.
A introdução de uma política de gestão de dados pode ajudar a resolver o desafio a longo prazo. Essa política deve cobrir como todos os dados que chegam à organização são avaliados e oferecer diretrizes claras sobre o que deve ser mantido (e organizado, para garantir um gerenciamento de dados claro), arquivado ou destruído. Uma parte importante dessa política é ser rigoroso sobre quais dados devem ser destruídos e quando. Aplicar a gestão de dados e avaliar regularmente as práticas pode ajudar a minimizar a quantidade de dados obscuros que nunca serão utilizados.
Para ajudar a descobrir dados obscuros, o aprendizado de máquina (ML) e a inteligência artificial (IA) podem realizar a tarefa pesada de categorizar dados obscuros, analisando-os para identificar insights valiosos. Além disso, a automação com ML pode ajudar com as regulamentações de conformidade de privacidade de dados, removendo automaticamente informações sensíveis dos dados armazenados.
Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.
O watsonx.data permite escalar a análise de dados e a IA com todos os seus dados, onde quer que estejam, por meio de um armazenamento de dados aberto, híbrido e governado.
Libere o valor dos dados empresariais com a IBM Consulting, construindo uma organização baseada em insights que ofereça vantagens para os negócios.
1 Gartner Glossary, Gartner
2 The State of Dark Data, Splunk, 2019
3 Dark Data: Discovery, Uses & Benefits of Hidden Data , Splunk, 03 de agosto de 2023