A linhagem de dados é o processo de acompanhamento do fluxo de dados durante um período de tempo, fornecendo uma visão clara de onde os dados se originaram, como mudaram e do destino final dentro do pipeline de dados. As ferramentas de linhagem de dados oferecem um registro dos dados durante seu ciclo de vida, incluindo informações sobre a origem e quaisquer transformações que possam ter sido aplicadas durante algum processo ETL ou ELT. Esse tipo de documentação permite que os usuários observem e acompanhem diferentes pontos de contato ao longo da jornada dos dados, permitindo que as organizações validem a precisão e consistência. Este é um recurso crítico para a assegurar de qualidade dos dados dentro de uma organização. Ele é geralmente utilizado para obter contexto sobre processos históricos, além de identificar a causa raiz dos erros.
linhagem de dados, proveniência de dados e controle de dados são termos intimamente relacionados, que se misturam entre si. Juntos, eles asseguram que uma organização possa manter a qualidade de dados e a segurança de dados ao longo do tempo.
O controle de dados cria estruturas dentro das organizações para gerenciar dados ativos, definindo proprietários de dados, termos de negócios, regras, políticas e processos ao longo do ciclo de vida dos dados. As soluções de linhagem de dados ajudam as equipes de controle de dados a garantir a conformidade com esses padrões, proporcionando visibilidade sobre como os dados mudam dentro do pipeline. A proveniência dos dados é normalmente utilizada no contexto de linhagem de dados, mas refere-se especificamente à primeira ocorrência desses dados ou à sua origem.
A linhagem de dados fornece uma trilha de auditoria para dados em um nível bastante granular; esse tipo de detalhe é extremamente útil para depuração de quaisquer erros de dados, permitindo que engenheiros de dados solucionem problemas de forma mais eficaz e identifiquem resoluções mais rapidamente. Embora o escopo de controle de dados seja mais amplo que a linhagem de dados e a proveniência de dados, este aspecto do gerenciamento de dados é importante no cumprimento das normas organizacionais.
Dados confiáveis são essenciais para impulsionar melhor tomada de decisões e a melhoria de processos em todos os aspectos do negócio, desde vendas até recursos humanos. No entanto, essas informações terão valor apenas se os stakeholders estiverem confiantes quanto à precisão, pois os insights dependem da qualidade dos dados. A linhagem de dados proporciona visibilidade das mudanças que possam ocorrer devido a migrações de dados, atualizações de sistema e erros, entre outros, garantindo a integridade dos dados durante o ciclo de vida.
A linhagem de dados documenta o relacionamento entre dados corporativos em vários aplicativos de negócios e de TI. Esses detalhes podem incluir:
Os metadados permitem que usuários de ferramentas de linhagem de dados compreendam totalmente como os dados fluem pelo pipeline de dados. Metadados são os "dados sobre os dados" e incluem várias informações sobre os ativos de dados, como o tipo, formato, estrutura, autor, data de criação, data de modificação e tamanho do arquivo. As ferramentas de linhagem de dados oferecem uma visão completa dos metadados para guiar os usuário conforme determinam quão útil serão os dados.
Nos últimos anos, a forma como armazenamos e utilizamos os dados progrediu junto com a evolução de big data. As empresas estão investindo mais em ciência de dados para otimizar a tomada de decisões e os resultados de negócios. No entanto, para que seja possível construir uma análise de boa qualidade, será necessário usar as ferramentas de linhagem de dados e os catálogos de dados para exercícios de descoberta e mapeamento de dados. Enquanto as ferramentas de linhagem de dados mostram a evolução dos dados ao longo de um período de tempo por meio dos metadados, um catálogo de dados usa as mesmas informações para criar um inventário de todos os ativos de dados de uma organização. Juntos, eles permitem que os cidadãos de dados compreendam a importância de diferentes elementos de dados em um determinado resultado, essencial para desenvolver os fundamentos de quaisquer algoritmos de aprendizado de máquina.
As empresas de hoje demandam cada vez mais insights em tempo real, mas essas descobertas dependem da compreensão dos dados e de sua jornada ao longo do pipeline. Algumas das maneiras pelas quais as equipes podem otimizar as ferramentas de linhagem de dados de ponta a ponta incluem:
Modelagem de dados: Para criar representações visuais dos diferentes elementos de dados e suas ligações correspondentes dentro de uma organização, as empresas devem definir as estruturas básicas de dados que servirão de apoio. A linhagem de dados ajuda a modelar esses relacionamentos, ilustrando as diferentes dependências no ecossistema de dados. Como os dados evoluem ao longo do tempo, sempre haverá o surgimento de novas fontes de dados, novas integrações de dados que precisam ser feitas, etc. Como resultado, o modelo de dados geral que as empresas usam para gerenciar seus dados também precisa se adaptar ao ambiente em evolução. A linhagem de dados ajuda a refletir essas mudanças ao longo do tempo com precisão, por meio de diagramas de modelos de dados, destacando conexões ou tabelas novas ou obsoletas. Isso, por sua vez, ajuda os analistas e cientistas de dados a facilitar análises valiosas e pontuais, pois terão um melhor entendimento dos conjuntos de dados.
Migração de dados: Ao mover dados para um novo sistema de armazenamento ou migrar novo software de onboarding, as organizações usam a migração de dados para ter uma visão da localização e dos ciclos de vida dos dados. Uma vez que a linhagem de dados oferece uma visão de como esses dados evoluíram pela organização, ela auxilia as equipes no planejamento dessas migrações ou atualizações de sistema, agilizando a transição geral para o novo ambiente de armazenamento. Ela também oferece às equipes a oportunidade de limpar o sistema de dados, arquivando ou excluindo dados antigos e irrelevantes; isso, por sua vez, pode melhorar o desempenho geral do sistema de dados reduzindo a quantidade de dados que precisam ser gerenciados.
Conformidade: A linhagem de dados fornece um mecanismo de conformidade para auditoria, melhorando o gerenciamento de riscos e garantindo que os dados sejam armazenados e processados de acordo com as políticas e regulamentações de controle de dados. Por exemplo, em 2016, a legislação GDPR foi criada para proteger os dados pessoais de pessoas na European Union and European Economic Area, dando aos indivíduos mais controle sobre seus dados. Nos Estados Unidos, alguns estados estão desenvolvendo políticas, como a Califórnia com o California Consumer Privacy Act (CCPA), que exige que as empresas informem os consumidores sobre a coleta de seus dados. Esse tipo de legislação faz com que o armazenamento e segurança desses dados seja uma das principais prioridades; sem ferramentas de linhagem de dados, problemas com a falta de conformidade serão fontes de prejuízo e tempo perdido para as empresas.
Análise de impacto: As ferramentas de linhagem de dados podem proporcionar visibilidade sobre o impacto de mudanças de negócios específicas, como qualquer tipo de relatório downstream. Por exemplo, se o nome de um elemento de dados mudar, a linhagem de dados pode ajudar os líderes a entender quantos painéis isso irá afetar e consequentemente quantos usuários que acessam esses relatórios. Ela também ajuda a avaliar o impacto dos erros de dados e a exposição em toda a organização. Erros de dados podem ocorrer por uma infinidade de motivos, que podem diminuir a confiança em certos relatórios ou origens de dados de inteligência de negócios, mas as ferramentas de linhagem de dados podem ajudar equipes a encontrar a fonte desses erros, possibilitando otimizações no processamento dos dados e na comunicação com as respectivas equipes.
Faça previsões mais rápidas usando uma plataforma criada com arquitetura de malha de dados. Colete, organize e analise dados, não importa onde residam.
Proporcione dados prontos para uso com IA e análises por meio de catalogação inteligente, apoiada por metadados ativos e pelo gerenciamento de políticas.