O que é linhagem de dados?

31 de maio de 2022

O que é linhagem de dados?

A linhagem de dados é o processo de rastreamento do fluxo de dados ao longo do tempo, proporcionando uma compreensão clara de onde os dados se originaram, como foram alterados e qual é seu destino final dentro do pipeline de dados.

As ferramentas de linhagem de dados fornecem um registro dos dados ao longo de todo o ciclo de vida, incluindo informações de origem e quaisquer transformações aplicadas durante os processos de ETL ou ELT.

Esse tipo de documentação permite que os usuários observem e rastreiem diferentes pontos de contato ao longo da jornada de dados, permitindo que as organizações validem a precisão e a consistência. Esse é um recurso crítico para garantir a qualidade dos dados dentro de uma organização. É comumente usado para obter contexto sobre processos históricos, bem como rastrear erros até a causa raiz.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Linhagem de dados versus procedência de dados versus governança de dados

Linhagem de dados, procedência de dados e governança de dados são termos estreitamente relacionados, que se sobrepõem uns aos outros. Juntos, eles garantem que uma organização possa manter a qualidade e a segurança de dados ao longo do tempo.

A governança de dados cria uma estrutura dentro das organizações para gerenciar ativos de dados ao definir proprietários de dados, termos de negócios, regras, políticas e processos durante todo o ciclo de vida dos dados. As soluções de linhagem de dados ajudam equipes de governança de dados a garantir que os dados estejam em conformidade com esses padrões, fornecendo visibilidade sobre como os dados mudam dentro do pipeline. A procedência de dados é normalmente usada no contexto de linhagem de dados, mas se refere especificamente à primeira instância desses dados ou sua fonte.

A linhagem de dados oferece uma trilha de auditoria para os dados em um nível muito granular; esse tipo de detalhamento é incrivelmente útil para depurar quaisquer erros de dados, permitindo que os engenheiros de dados solucionem problemas de forma mais eficaz e identifiquem resoluções mais rapidamente. Embora o escopo da governança de dados seja mais amplo do que a linhagem e a procedência de dados, esse aspecto do gerenciamento de dados é importante para impor os padrões organizacionais.

Mixture of Experts | 25 de abril, episódio 52

Decodificando a IA: resumo semanal das notícias

Junte-se ao nosso painel de engenheiros, pesquisadores, líderes de produto e outros especialistas de classe mundial enquanto eles cortam o ruído da IA para trazer a você as últimas notícias e insights sobre IA.

Por que as empresas usam a linhagem de dados

Dados confiáveis são essenciais para promover uma melhor tomada de decisão e a melhoria de processos em todas as áreas do negócio, de vendas a recursos humanos. No entanto, essas informações só são valiosas se os stakeholders continuarem confiando em sua precisão, já que os insights só têm valor quando a qualidade dos dados é garantida. A linhagem de dados oferece visibilidade sobre mudanças que podem ocorrer em razão de migrações de dados, atualizações de sistemas, erros e outros fatores, garantindo a integridade dos dados durante todo o seu ciclo de vida.

A linhagem de dados documenta a relação entre os dados corporativos em vários aplicativos de negócios e de TI. Esses detalhes podem incluir:

  • Onde os dados estão e como são armazenados em um ambiente, como no local, em um data warehouse ou em um data lake.
  • Como os dados podem ser usados e quem é responsável por atualizar, usar e alterar os dados. Isso também inclui as funções e aplicações que estão autorizadas a acessar segmentos específicos de dados confidenciais, como por exemplo informação de identificação pessoal (IIP).
  • Rastreamento de dados gerados, carregados e alterados por usuários corporativos e aplicações. Por exemplo, pode ser a adição de contatos a um sistema de gerenciamento de relacionamento com o cliente (CRM) ou uma transformação de dados, como a remoção de registros duplicados.
  • Dados criados e integrados de diferentes partes da organização, como hardware de rede e servidores.

Como funciona a linhagem de dados

Os metadados permitem que os usuários de ferramentas de linhagem de dados entendam totalmente como os dados fluem pelo pipeline de dados. Metadados são os "dados sobre os dados", que incluem várias informações sobre os ativos de dados, como tipo, formato, estrutura, autor, data de criação, data de modificação e tamanho do arquivo. As ferramentas de linhagem de dados fornecem uma imagem completa dos metadados para orientar os usuários enquanto determinam a utilidade dos dados.

Nos últimos anos, a forma como armazenamos e utilizamos dados evoluiu junto com a expansão do big data. As empresas estão investindo mais em ciência de dados para orientar a tomada de decisões e gerar resultados de negócios. No entanto, para que possam construir uma análise bem estruturada, será necessário utilizar ferramentas de linhagem de dados e catálogos de dados para atividades de descoberta e mapeamento de dados. Enquanto as ferramentas de linhagem de dados mostram a evolução dos dados ao longo do tempo por meio de metadados, um catálogo de dados utiliza essas mesmas informações para criar um inventário pesquisável de todos os ativos de dados da organização. Juntas, essas ferramentas permitem que os profissionais de dados compreendam a importância de diferentes elementos de dados para determinados resultados — algo fundamental para o desenvolvimento de qualquer algoritmo de aprendizado de máquina.

Casos de uso de linhagem de dados

Atualmente, as empresas têm uma necessidade cada vez maior de insights em tempo real, mas essas descobertas dependem do entendimento dos dados e de sua jornada ao longo do pipeline. Algumas das maneiras pelas quais as equipes podem aproveitar as ferramentas de linhagem de dados de ponta a ponta para melhorar os fluxos de trabalho incluem:

Modelagem de dados: para criar representações visuais dos diferentes elementos de dados e seus respectivos vínculos dentro de uma empresa, as organizações devem definir as estruturas de dados subjacentes que os sustentam. A linhagem de dados ajuda a modelar essas relações, ilustrando as diferentes dependências no ecossistema de dados. Como os dados evoluem ao longo do tempo, sempre surgem novas fontes de dados e integrações que precisam ser feitas. Como resultado, o modelo de dados usado pelas empresas para gerenciar seus dados também precisa se adaptar ao ambiente em mudança. A linhagem de dados ajuda a refletir com precisão essas alterações ao longo do tempo por meio de diagramas do modelo de dados, destacando conexões ou tabelas novas ou obsoletas. Isso, por sua vez, auxilia analistas e cientistas de dados a realizarem análises valiosas e oportunas, pois terão melhor compreensão dos conjuntos de dados.

Migração de dados: ao migrar dados para um novo sistema de armazenamento ou incorporar um novo software, as organizações usam a migração de dados para entender as localizações e o ciclo de vida dos dados. Como a linhagem de dados fornece uma visão de como esses dados evoluíram na organização, ela auxilia as equipes no planejamento dessas migrações ou atualizações de sistema, acelerando a transição geral para o novo ambiente de armazenamento. Ela também oferece às equipes a oportunidade de limpar o sistema de dados, arquivando ou excluindo dados antigos e irrelevantes, o que, por sua vez, pode melhorar o desempenho geral do sistema reduzindo a quantidade de dados a serem gerenciados.

Conformidade: a linhagem de dados oferece um mecanismo de conformidade para auditoria, melhorando o gerenciamento de riscos e garantindo que os dados sejam armazenados e processados em conformidade com as políticas e regulamentos de governança de dados. Por exemplo, em 2016 a legislação GDPR foi criada para proteger os dados pessoais de pessoas na União Europeia e no Espaço Econômico Europeu, dando aos indivíduos maior controle sobre seus dados. Nos Estados Unidos, estados como a Califórnia desenvolveram políticas, como a California Consumer Privacy Act (CCPA), que exige que as empresas informem os consumidores sobre a coleta de seus dados. Esse tipo de legislação torna o armazenamento e a segurança desses dados uma prioridade máxima e, sem ferramentas de linhagem de dados, as organizações enfrentariam questões de não conformidade que seriam tarefas demoradas e caras.

Análise de impacto: as ferramentas de linhagem de dados podem fornecer visibilidade sobre o impacto de mudanças específicas de negócio, como relatórios a jusante. Por exemplo, se o nome de um elemento de dados mudar, a linhagem de dados pode ajudar a identificar quantos dashboards podem ser afetados e, consequentemente, quantos usuários acessam esses relatórios. Ela também auxilia na avaliação do impacto de erros de dados e na exposição por toda a organização. Erros de dados podem ocorrer por diversos motivos, o que pode minar a confiança em determinados relatórios ou fontes de business intelligence, mas as ferramentas de linhagem de dados podem ajudar as equipes a rastrear esses erros até a origem, permitindo otimizações no processamento de dados e comunicação com as equipes responsáveis.

Soluções relacionadas
IBM Manta Data Lineage

Visualize, transforme e otimize seu fluxo de dados desde a origem até o consumo. Aplique a linhagem de dados a qualquer cenário para maior transparência e precisão dos dados em suas operações.

Conheça o IBM Manta Data Lineage
Soluções de inteligência de dados

Transforme dados brutos em insights praticáveis com rapidez, unifique a governança, a qualidade, a linhagem e o compartilhamento de dados, e disponibilize informações confiáveis e contextualizadas aos consumidores de dados.

Conheça as soluções de inteligência de dados
Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights que proporciona vantagem comercial.

Conheça os serviços de análise de dados
Dê o próximo passo

Saiba como a IBM ajuda a criar uma base de dados com governança pronta para a conformidade. O IBM Manta Data Lineage oferece transparência nos dados por meio do monitoramento do histórico, do fluxo e dos resultados, proporcionando insights de ponta a ponta.

Explore o IBM Manta Data Lineage Explore soluções de inteligência de dados