Início

topics

Dados obscuros (dark data)

O que é dark data?
Explore a solução de dados obscuros da IBM Inscreva-se para receber atualizações sobre IA
Ilustração com colagem de pictogramas de nuvens, gráfico de pizza, pictogramas de gráficos
O que é dark data?

De acordo com a Gartner, dados obscuros referem-se aos ativos de informação que as organizações coletam, processam e armazenam durante suas atividades comerciais regulares, mas que geralmente não são utilizados para outros fins, como análises, relacionamentos comerciais ou monetização direta1.

Hoje, a maioria das empresas armazena grandes quantidades de dados obscuros. Em uma pesquisa global da Splunk com mais de 1.300 tomadores de decisão de negócios e TI, 60% dos entrevistados relataram que metade ou mais dos dados de suas organizações são considerados obscuros. Um terço completo dos entrevistados relatou que essa quantidade chega a 75% ou mais2.

Os dados obscuros se acumulam porque as organizações adotaram a ideia de que é valioso armazenar todas as informações que podem capturar em grandes data lakes. Isso se deve em parte ao advento de armazenamento de baixo custo, que tornou fácil justificar o armazenamento de tantos dados, no caso de um dia eles se tornarem valiosos.

No final, a maioria das empresas nunca usa nem uma fração do que armazena, porque o repositório de armazenamento não documenta adequadamente os rótulos de metadados, alguns dos dados estão em um formato que as ferramentas integradas não conseguem ler, ou os dados não são recuperáveis por meio de uma consulta.

Os dados obscuros são um grande limitador na produção de boas análises, porque a qualidade de qualquer análise de dados depende do conjunto de informações acessíveis às ferramentas analíticas, tanto prontamente quanto em detalhes completos.

Outros problemas com os dados obscuros incluem a criação de responsabilidades, altos custos de armazenamento e oportunidades perdidas, devido ao fato de as equipes não perceberem quais dados estão potencialmente disponíveis para elas.

Por que a governança da IA é um imperativo empresarial para escalar a IA empresarial

Saiba mais sobre as barreiras à adoção da IA, particularmente a falta de soluções de governança e gerenciamento de riscos da IA.

Conteúdo relacionado Cadastre-se para receber o relatório da IDC
Por que os dados se tornam obscuros

Existem várias causas para que os dados de uma organização se tornem obscuros, incluindo:

  • Falta de conscientização: os dados obtidos durante as operações normais de negócios muitas vezes se tornam obscuros porque as organizações ou não estão cientes de sua existência ou não entendem seu valor ou relevância.

  • Dados presos em silos: quando diferentes departamentos dentro de uma organização coletam e armazenam dados de forma independente, isso pode levar à fragmentação e ao isolamento dos dados. Esses silos de dados podem não ser acessíveis ou visíveis para outras equipes, que potencialmente achariam esses dados bastante valiosos.

  • Falta de governança de dados: sem um robusto framework de governança de dados, as organizações podem ter dificuldades para gerenciar e rastrear dados de maneira eficaz em todo o seu ecossistema. Isso faz com que os dados se tornem desorganizados, perdidos e inutilizáveis.

  • Sistemas legados: à medida que as organizações atualizam seus softwares e hardwares, sistemas mais antigos podem perder a relevância. Os dados armazenados nesses sistemas legados se tornam obscuros se não puderem ser integrados às ferramentas modernas de análise da organização.

  • Integração de dados incompleta: processos de integração de dados incompletos ou ineficazes podem resultar em lacunas e inconsistências nos dados. Isso pode tornar certos conjuntos de dados inacessíveis ou não devidamente conectados a outras fontes de dados.

  • Mudança das prioridades de negócios: à medida que as prioridades de negócios evoluem, determinados conjuntos de dados podem se tornar menos relevantes ou ficar fora de foco. Dados que antes eram usados ativamente podem ser deixados no escuro à medida que os objetivos organizacionais mudam.

  • Recursos e alfabetização limitados: organizações com recursos limitados podem priorizar a coleta e o armazenamento de dados em detrimento da análise de dados. Além disso, a falta de letramento em dados entre os funcionários pode dificultar a descoberta e a utilização de dados valiosos.

  • Problemas de qualidade de dados: qualidade de dados inferior, como dados imprecisos ou incompletos, podem ser desconsiderados ou ignorados. Dados percebidos como pouco confiáveis têm menos chances de ser utilizados, tornando-os, efetivamente, obscuros.

  • Finalidades de conformidade normativa: muitos padrões de conformidade e governança obrigam as organizações a seguir normas rígidas sobre o tempo de armazenamento de dados confidenciais. Muitas vezes, acabam armazenando os dados por mais tempo do que o necessário, pois não conseguem acompanhar quais dados sensíveis deveriam ser destruídos.

  • Dados redundantes, obsoletos e triviais (ROT): o ROT é criado quando os funcionários salvam múltiplas cópias das mesmas informações, informações desatualizadas e informações extras que não ajudam a organização a atingir seus objetivos.
Tipos de dados obscuros

Em termos de sua capacidade de descoberta para iniciativas de análise de dados oportunas e completas, os dados obscuros podem ser estruturados, não estruturados ou semiestruturados.

Dados estruturados são informações adicionadas a campos de planilhas ou bancos de dados claramente definidos antes de serem armazenadas.

Arquivos de log de servidor, dados de sensores da Internet das coisas (IoT), bancos de dados de gerenciamento de relacionamento com clientes (CRM) e sistemas de planejamento de recursos empresariais (ERP) são exemplos de dados obscuros criados a partir de fontes de dados estruturados.

Embora a maioria dos dados sensíveis, como extratos bancários eletrônicos, registros médicos e dados de clientes criptografados, estejam tipicamente em forma estruturada, é difícil visualizá-los e categorizá-los devido a questões de permissão.

Diferentemente dos dados estruturados, dados não estruturados incluem informações que não podem ser organizadas em bancos de dados ou planilhas para análise sem conversão, codificação, classificação e estruturação.

Correspondências por e-mail, PDFs, documentos de texto, postagens em redes sociais, gravações de centrais de atendimento, logs de bate-papo e imagens de câmeras de segurança são exemplos de dados obscuros criados a partir de fontes de dados não estruturados.

Dados semiestruturados são dados não estruturados que contêm algumas informações em campos de dados definidos. Embora não ofereçam a mesma facilidade de descoberta que os dados estruturados, ainda podem ser pesquisados ou catalogados.

Exemplos incluem código HTML, faturas, gráficos, tabelas e documentos XML.

Custos dos dados obscuros

Os custos de armazenamento de dados obscuros podem ser significativos e se estender bem além do custo financeiro direto de seu armazenamento. Os custos diretos e indiretos incluem:

Custos de armazenamento de dados

Armazenar dados, mesmo que não sejam usados ativamente, requer infraestrutura de armazenamento física ou digital. Isso pode incluir servidores, data centers, soluções de armazenamento em nuvem e sistemas de backup. Quanto mais dados você tiver em seu ecossistema, mais capacidade de armazenamento de dados será necessária, o que leva ao aumento dos custos de infraestrutura.

Custos de responsabilidade

Os governos introduziram uma série de leis globais de privacidade nos últimos anos, que se aplicam a todos os dados, até mesmo aos dados que não são usados nos repositórios de análise.

Custos de oportunidade

Diversas empresas deixam de aproveitar oportunidades por não usarem esses dados. Embora seja uma boa prática se livrar de dados obscuros que não são utilizáveis, devido aos riscos e custos, vale a pena primeiro analisar os dados disponíveis para determinar o que pode ser aproveitado.

Custos de ineficiência

Gerenciar grandes volumes de dados, incluindo dados obscuros, pode desacelerar os processos de recuperação e análise de dados. Funcionários podem gastar mais tempo procurando informações relevantes, levando à redução da produtividade e ao aumento dos custos de mão de obra.

Custos de risco

Os dados obscuros podem representar riscos relacionados à cibersegurança insuficiente, violações de dados, não conformidade com regulamentações e perda de dados. Esses riscos podem resultar em danos à reputação e consequências financeiras.

Problemas de qualidade de dados e dados obscuros

Às vezes, os dados obscuros são criados devido a problemas de qualidade de dados.

Por exemplo, uma transcrição de uma gravação de áudio é gerada automaticamente, mas a IA que criou a transcrição comete alguns erros. No entanto, alguém mantém a transcrição, pensando que irá resolvê-la em algum momento, o que nunca faz.

Quando as organizações tentam limpar dados de má qualidade, às vezes não identificam o que está causando o problema. Sem o entendimento correto, é impossível garantir que o problema de qualidade de dados não continue acontecendo no futuro.

Essa situação se torna cíclica, porque, em vez de simplesmente aplicar políticas de exclusão de dados obscuros que estão armazenados sem nunca serem usados, as organizações deixam esses dados acumulando, contribuindo para um problema crescente de qualidade de dados.

Felizmente, existem três etapas para o gerenciamento de qualidade de dados que as organizações podem seguir para ajudar a aliviar esse problema:

  1. Analisar e identificar a situação "como está": para priorizar os problemas, primeiro identifique todas as questões atuais, padrões de dados existentes e o impacto nos negócios.

  2. Prevenir a recorrência de dados ruins: avalie a causa raiz de cada problema e aplique os recursos para resolvê-lo de maneira sustentável, para que não volte a acontecer.

  3. Comunicar frequentemente durante o processo: compartilhe o que está acontecendo, o que a equipe está fazendo, o impacto desse trabalho e como esses esforços estão conectados aos objetivos empresariais.
Como lançar luz sobre os dados obscuros

Apesar dos custos e problemas de qualidade dos dados obscuros, há pontos positivos.Como a Splunk afirma, "dados obscuros podem ser um dos maiores recursos inexplorados de uma organização"3.

Ao adotar uma abordagem proativa para gerenciar dados obscuros, as organizações podem iluminar os dados obscuros. Isso não apenas reduz responsabilidades e custos, mas também dá às equipes os recursos de que precisam para descobrir insights a partir de dados ocultos.

Quando se trata de lidar com dados obscuros e potencialmente usá-los para tomar decisões mais bem fundamentadas em dados, há várias práticas recomendadas a serem seguidas:

Eliminar os silos

Os dados obscuros muitas vezes surgem devido a silos dentro da organização. Uma equipe cria dados que poderiam ser úteis para outra, mas essa outra equipe não tem conhecimento deles. Eliminar esses silos torna esses dados acessíveis para a equipe que precisa deles. Dados não utilizados se tornam recursos de imenso valor.

Aprimorar o gerenciamento de dados

É importante entender quais dados existem dentro da organização. Esse esforço começa com a classificação de todos os dados na organização para obter uma visão completa e precisa. A partir daí, as equipes podem começar a organizar melhor seus dados com o objetivo de facilitar o acesso e o uso pelas pessoas em diferentes equipes.

Estabelecer políticas de governança de dados

A introdução de uma política de governança de dados pode ajudar a resolver o desafio a longo prazo. Essa política deve cobrir como todos os dados que chegam à organização são revisados e oferecer diretrizes claras sobre o que deve ser mantido (e organizado, para garantir um gerenciamento claro dos dados), arquivado ou destruído. Uma parte importante dessa política é ser rigoroso sobre quais dados devem ser destruídos e quando. Aplicar a governança de dados e revisar regularmente as práticas pode ajudar a minimizar a quantidade de dados obscuros que nunca serão utilizados.

Usar ferramentas de ML e IA para analisar dados

Para ajudar a descobrir dados obscuros, o aprendizado de máquina (ML) e a inteligência artificial (IA) podem realizar a tarefa pesada de categorizar dados obscuros, analisando-os para identificar insights valiosos. Além disso, a automação com ML pode ajudar com as regulamentações de conformidade de privacidade de dados, removendo automaticamente informações sensíveis dos dados armazenados.

Produtos relacionados
IBM Databand

O IBM® Databand é um software de observabilidade para pipelines de dados e armazéns de dados que coleta automaticamente metadados para construir bases históricas, detectar anomalias e priorizar alertas para remediar problemas de qualidade de dados.

Explore o Databand

IBM DataStage

Com suporte para os padrões ETL e ELT, o IBM® DataStage® oferece integração de dados flexível e quase em tempo real, tanto no local quanto na nuvem.

Conheça o DataStage

IBM Knowledge Catalog

Um catálogo de dados inteligente para a era da IA, o IBM® O Knowledge Catalog permite acessar, organizar, categorizar e compartilhar dados e ativos de conhecimento, independentemente de onde estejam armazenados.

Conheça o Knowledge Catalog
Recursos O que é ciência de dados?

Saiba o que é ciência de dados e como ela pode desbloquear insights empresariais e acelerar a transformação digital, enquanto capacita a tomada de decisões baseada em dados.

O que é inteligência artificial (IA)?

Saiba o que é IA, seus diferentes tipos, a história da IA e por que a IA generativa acelerou drasticamente sua adoção nas empresas.

Os seis pilares da qualidade de dados e como melhorar seus dados

Descubra por que dados de alta qualidade são essenciais para tomar decisões bem informadas, realizar análises precisas e desenvolver estratégias eficazes.

O que fazer com dados obscuros?

Toda empresa acumula dados obscuros. Saiba como as ferramentas de gerenciamento podem transformar esses dados de uma responsabilidade onerosa em um recurso valioso repleto de oportunidades inexploradas.

Dê o próximo passo

Implemente hoje mesmo a observabilidade proativa de dados com o IBM Databand para saber quando há problemas de integridade de dados antes de fazer isso.

Explore o Databand Agende uma demonstração em tempo real
Notas de rodapé

1 Glossário da Gartner (link fora de ibm.com), Gartner

2 The State of Dark Data (link fora de ibm.com), Splunk, 2019

3 Dark Data: Discovery, Uses & Benefits of Hidden Data (link fora de ibm.com), Splunk, 3 de agosto de 2023