À medida que as empresas começaram a investir em tecnologias avançadas de armazenamento de dados para tornar os dados amplamente acessíveis e utilizáveis para gerar insights de negócios e automatizar decisões, os engenheiros de dados enfrentaram vários desafios, pois as soluções não eram dimensionadas conforme o esperado. Como os dados geralmente estavam repletos de erros, incompletos e não eram significativos ou verdadeiros—e porque eles tinham muito pouca compreensão dos domínios de origem que geravam esses dados — os engenheiros se esforçavam para corrigir o que não sabiam nem entendiam.
Os engenheiros de dados reconheceram a necessidade de mudar sua abordagem para projetar arquiteturas distribuídas modernas. Eles viram a importância de adotar uma nova metodologia que organize a arquitetura em torno dos domínios de negócios específicos que visa suportar. Essa abordagem incorpora o pensamento de produto para desenvolver uma infraestrutura de dados de autoatendimento funcional e fácil de usar.1
O pensamento de produto vai além das funcionalidades de um produto; trata-se de criar soluções significativas que ressoam com os usuários e se destacam no mercado. É uma filosofia que influencia todas as etapas do processo de desenvolvimento de produtos, da ideia ao lançamento e à iteração. Os engenheiros perceberam que, ao tratar os dados como um produto, eles poderiam melhorar significativamente seu uso e valor dentro da organização.
Ao adotar uma abordagem que trata os conjuntos de dados como produtos, são criadas equipes de domínio dentro de áreas de negócios específicas que se encarregam de gerenciar e disseminar os dados para toda a organização, a fim de melhor centralizar a experiência do usuário para os principais consumidores desses dados, normalmente cientistas de dados e engenheiros. .
Essas equipes de domínio compartilham seus dados via APIs (interfaces de programação de aplicativos), acompanhados por documentação abrangente, ambientes de testes robustos e indicadores claros de desempenho.
Um DaaP bem-sucedido deve atender aos seguintes requisitos:
- Facilmente detectável
- Endereçável
- Confiável
- Bem documentado
- Capaz de trabalhar com outros produtos de dados
- Seguro
Isso significa que, em uma metodologia DaaP, os dados devem ser fáceis de encontrar, confiáveis, claros no que representam, podem ser integrados a outros dados e protegidos contra acesso não autorizado.
Imagine que o DaaP é como uma viagem aérea, e que cada dado é um passageiro de uma companhia aérea: organizações e usuários precisam saber de onde veio cada ponto de dados, por quais transformações ele passou e onde está destinado a parar. Isso é chamado de linhagem de dados e é um elemento crucial para a adoção eficaz do DaaP. Ao usar ferramentas como o IBM InfoSphere, AWS Glue ou Cloudera Data Hub, as organizações podem gerenciar metadados e rastrear jornadas de dados para garantir transparência e evitar confusão.
Depois que cada viajante é devidamente examinado, ele embarca no avião. Assim como a companhia aérea precisa garantir que o avião seja grande e resistente o suficiente para receber os passageiros, as organizações devem usar infraestrutura escalável para acomodar volumes crescentes de dados e múltiplas solicitações de acesso. Dependendo das necessidades de negócios específicas de uma organização e dos segmentos de mercado, há uma série de plataformas baseadas em nuvem, soluções de código aberto e plataformas comerciais entre as quais as organizações podem escolher.
Agora, imagine precisar de informações de voo, mas o sistema está inoperante. Isso quebra a confiança dos viajantes e faz com que a companhia aérea seja percebida como não confiável e ineficaz, que é exatamente o motivo pelo qual as ferramentas DaaP precisam entregar dados de forma consistente. É também por isso que as organizações devem fornecer planos e relatórios claros sobre recuperação e redundância de dados.
Não há viagem aérea sem segurança, e o mesmo vale para o DaaP. Recursos de segurança, como controle de acesso baseado em funções, criptografia de dados e sistemas de detecção de intrusão, protegem dados confidenciais e garantem a conformidade com regulamentações como o GDPR e HIPAA. Práticas de governança, incluindo monitoramento da qualidade dos dados, catalogação e gerenciamento de mudanças, garantem que os dados da organização sejam confiáveis e acessíveis.