O que é linhagem de dados?
Conheça a linhagem de dados e como as empresas a usam para melhorar os insights de negócios
Dois trabalhadores sentados em uma mesa compartilhada, ambos olhando para um monitor de computador
O que é linhagem de dados?

A linhagem de dados é o processo de acompanhamento do fluxo de dados durante um período de tempo, fornecendo uma visão clara de onde os dados se originaram, como mudaram e do destino final dentro do pipeline de dados. As ferramentas de linhagem de dados oferecem um registro dos dados durante seu ciclo de vida, incluindo informações sobre a origem e quaisquer transformações que possam ter sido aplicadas durante algum processo ETL ou ELT. Esse tipo de documentação permite que os usuários observem e acompanhem diferentes pontos de contato ao longo da jornada dos dados, permitindo que as organizações validem a precisão e consistência. Este é um recurso crítico para a assegurar de qualidade dos dados dentro de uma organização. Ele é geralmente utilizado para obter contexto sobre processos históricos, além de identificar a causa raiz dos erros.

Linhagem de dados x proveniência de dados x controle de dados

linhagem de dados, proveniência de dados e controle de dados são termos intimamente relacionados, que se misturam entre si. Juntos, eles asseguram que uma organização possa manter a qualidade de dados e a segurança de dados ao longo do tempo.

O controle de dados cria estruturas dentro das organizações para gerenciar dados ativos, definindo proprietários de dados, termos de negócios, regras, políticas e processos ao longo do ciclo de vida dos dados. As soluções de linhagem de dados ajudam as equipes de controle de dados a garantir a conformidade com esses padrões, proporcionando visibilidade sobre como os dados mudam dentro do pipeline. A proveniência dos dados é normalmente utilizada no contexto de linhagem de dados, mas refere-se especificamente à primeira ocorrência desses dados ou à sua origem.

A linhagem de dados fornece uma trilha de auditoria para dados em um nível bastante granular; esse tipo de detalhe é extremamente útil para depuração de quaisquer erros de dados, permitindo que engenheiros de dados solucionem problemas de forma mais eficaz e identifiquem resoluções mais rapidamente. Embora o escopo de controle de dados seja mais amplo que a linhagem de dados e a proveniência de dados, este aspecto do gerenciamento de dados é importante no cumprimento das normas organizacionais.

Por que as empresas usam linhagem de dados

Dados confiáveis são essenciais  para impulsionar melhor tomada de decisões e a melhoria de processos em todos os aspectos do negócio, desde vendas até recursos humanos. No entanto, essas informações terão valor apenas se os stakeholders estiverem confiantes quanto à precisão, pois os insights dependem da qualidade dos dados. A linhagem de dados proporciona visibilidade das mudanças que possam ocorrer devido a migrações de dados, atualizações de sistema e erros, entre outros, garantindo a integridade dos dados durante o ciclo de vida.

A linhagem de dados documenta o relacionamento entre dados corporativos em vários aplicativos de negócios e de TI. Esses detalhes podem incluir:

  • Onde os dados estão localizados e como são armazenado em um ambiente, como on premises, em um data warehouse ou em um data lake.
  • Como os dados podem ser usados e quem é o responsável pelo uso, pela atualização e pela alteração dos dados. Isso também inclui funções e aplicativos autorizados a acessar segmentos específicos de dados confidenciais, como informações pessoais identificáveis (PII), por exemplo.
  • Acompanhar os dados gerados, alteradores e transferidos por upload por usuários e aplicativos de negócios. Por exemplo, isto pode se referir à inclusão de contatos em um sistema de gerenciamento de relacionamento com o cliente (CRM) ou à transformação de dados, como a remoção de registros duplicados.
  • Dados criados e integrados de diferentes partes da organização, como hardware de rede e servidores.
Como funciona a linhagem de dados

Os metadados permitem que usuários de ferramentas de linhagem de dados compreendam totalmente como os dados fluem pelo pipeline de dados. Metadados são os "dados sobre os dados" e incluem várias informações sobre os ativos de dados, como o tipo, formato, estrutura, autor, data de criação, data de modificação e tamanho do arquivo. As ferramentas de linhagem de dados oferecem uma visão completa dos metadados para guiar os usuário conforme determinam quão útil serão os dados.

Nos últimos anos, a forma como armazenamos e utilizamos os dados progrediu junto com a evolução de big data. As empresas estão investindo mais em ciência de dados para otimizar a tomada de decisões e os resultados de negócios. No entanto, para que seja possível construir uma análise de boa qualidade, será necessário usar as ferramentas de linhagem de dados e os catálogos de dados para exercícios de descoberta e mapeamento de dados. Enquanto as ferramentas de linhagem de dados mostram a evolução dos dados ao longo de um período de tempo por meio dos metadados, um catálogo de dados usa as mesmas informações para criar um inventário de todos os ativos de dados de uma organização. Juntos, eles permitem que os cidadãos de dados compreendam a importância de diferentes elementos de dados em um determinado resultado, essencial para desenvolver os fundamentos de quaisquer algoritmos de aprendizado de máquina.

Casos de uso de linhagem de dados

As empresas de hoje demandam cada vez mais insights em tempo real, mas essas descobertas dependem da compreensão dos dados e de sua jornada ao longo do pipeline. Algumas das maneiras pelas quais as equipes podem otimizar as ferramentas de linhagem de dados de ponta a ponta incluem:

Modelagem de dados: Para criar representações visuais dos diferentes elementos de dados e suas ligações correspondentes dentro de uma organização, as empresas devem definir as estruturas básicas de dados que servirão de apoio. A linhagem de dados ajuda a modelar esses relacionamentos, ilustrando as diferentes dependências no ecossistema de dados.  Como os dados evoluem ao longo do tempo, sempre haverá o surgimento de novas fontes de dados, novas integrações de dados que precisam ser feitas, etc. Como resultado, o modelo de dados geral que as empresas usam para gerenciar seus dados também precisa se adaptar ao ambiente em evolução. A linhagem de dados ajuda a refletir essas mudanças ao longo do tempo com precisão, por meio de diagramas de modelos de dados, destacando conexões ou tabelas novas ou obsoletas. Isso, por sua vez, ajuda os analistas e cientistas de dados a facilitar análises valiosas e pontuais, pois terão um melhor entendimento dos conjuntos de dados.

Migração de dados: Ao mover dados para um novo sistema de armazenamento ou migrar novo software de onboarding, as organizações usam a migração de dados para ter uma visão da localização e dos ciclos de vida dos dados. Uma vez que a linhagem de dados oferece uma visão de como esses dados evoluíram pela organização, ela auxilia as equipes no planejamento dessas migrações ou atualizações de sistema, agilizando a transição geral para o novo ambiente de armazenamento. Ela também oferece às equipes a oportunidade de limpar o sistema de dados, arquivando ou excluindo dados antigos e irrelevantes; isso, por sua vez, pode melhorar o desempenho geral do sistema de dados reduzindo a quantidade de dados que precisam ser gerenciados.

Conformidade: A linhagem de dados fornece um mecanismo de conformidade para auditoria, melhorando o gerenciamento de riscos e garantindo que os dados sejam armazenados e processados de acordo com as políticas e regulamentações de controle de dados. Por exemplo, em 2016, a legislação GDPR foi criada para proteger os dados pessoais de pessoas na European Union and European Economic Area, dando aos indivíduos mais controle sobre seus dados. Nos Estados Unidos, alguns estados estão desenvolvendo políticas, como a Califórnia com o California Consumer Privacy Act (CCPA), que exige que as empresas informem os consumidores sobre a coleta de seus dados. Esse tipo de legislação faz com que o armazenamento e segurança desses dados seja uma das principais prioridades; sem ferramentas de linhagem de dados, problemas com a falta de conformidade serão fontes de prejuízo e tempo perdido para as empresas.

Análise de impacto: As ferramentas de linhagem de dados podem proporcionar visibilidade sobre o impacto de mudanças de negócios específicas, como qualquer tipo de relatório downstream. Por exemplo, se o nome de um elemento de dados mudar, a linhagem de dados pode ajudar os líderes a entender quantos painéis isso irá afetar e consequentemente quantos usuários que acessam esses relatórios. Ela também ajuda a avaliar o impacto dos erros de dados e a exposição em toda a organização. Erros de dados podem ocorrer por uma infinidade de motivos, que podem diminuir a confiança em certos relatórios ou origens de dados de inteligência de negócios, mas as ferramentas de linhagem de dados podem ajudar equipes a encontrar a fonte desses erros, possibilitando otimizações no processamento dos dados e na comunicação com as respectivas equipes.

Soluções IBM
IBM Cloud Pak for Data

Faça previsões mais rápidas usando uma plataforma criada com arquitetura de malha de dados. Colete, organize e analise dados, não importa onde residam.

IBM Cloud Pak for Data
IBM Watson Knowledge Catalog

Proporcione dados prontos para uso com IA e análises por meio de catalogação inteligente, apoiada por metadados ativos e pelo gerenciamento de políticas.

IBM Watson Knowledge Catalog
Dê o próximo passo

O IBM Cloud Pak for Data utiliza microsserviços e seus recursos de dados e IA líderes de mercado para automatizar a integração inteligente de dados em sistemas distribuídos, fornecendo às empresas uma visão abrangente do desempenho dos negócios. Isso ajuda a acelerar a coleta, a organização e o fornecimento de insights sobre os dados corporativos, o que permite uma tomada de decisões em escala nas empresas. As equipes de gerenciamento de dados também podem confiar que seus dados estão seguros com as estruturas de segurança competitivas da IBM, que garantem a adesão às políticas regulamentares e a redução dos riscos de conformidade. Descubra como o IBM® Cloud Pak for Data e o IBM Streams podem ajudá-lo a compreender e gerenciar a arquitetura de dados do seu negócio por meio da linhagem de dados em diversos ambientes.

Saiba mais sobre o IBM Cloud Pak for Data