Minha IBM Efetue login Inscreva-se

Início

topics

Linhagem de dados

O que é linhagem de dados?

O que é linhagem de dados?

Explore a solução de linhagem de dados da IBM Inscreva-se para receber atualizações sobre IA
Ilustração com colagem de pictogramas de nuvens, gráfico de pizza, pictogramas de gráficos a seguir
O que é linhagem de dados?

O que é linhagem de dados?

A linhagem de dados é o processo de acompanhar o fluxo de dados ao longo do tempo, fornecendo um entendimento claro sobre a origem dos dados, como eles foram alterados e seu destino final dentro do pipeline de dados.

As ferramentas de linhagem de dados fornecem um registro dos dados durante todo o seu ciclo de vida, incluindo informações de origem e quaisquer transformações de dados que tenham sido aplicadas durante processos de ETL ou ELT .

Esse tipo de documentação permite que os usuários observem e rastreiem diferentes pontos de contato ao longo da jornada de dados, permitindo que as organizações validem a precisão e a consistência. Esse é um recurso crítico para garantir a qualidade dos dados dentro de uma organização. É comumente usado para obter contexto sobre processos históricos, bem como rastrear erros até a causa raiz.

 

Guia do líder de dados

Saiba como aproveitar os bancos de dados adequados para aplicações, análises e IA generativa.

Conteúdo relacionado Registre-se para o ebook sobre armazenamento de dados de IA
Linhagem de dados versus procedência de dados versus governança de dados

Linhagem de dados versus procedência de dados versus governança de dados

Linhagem de dados, procedência de dados e governança de dados são termos estreitamente relacionados, que se sobrepõem uns aos outros. Juntos, eles garantem que uma organização possa manter a qualidade e a segurança de dados ao longo do tempo.

A governança de dados cria uma estrutura dentro das organizações para gerenciar ativos de dados ao definir proprietários de dados, termos de negócios, regras, políticas e processos durante todo o ciclo de vida dos dados. As soluções de linhagem de dados ajudam equipes de governança de dados a garantir que os dados estejam em conformidade com esses padrões, fornecendo visibilidade sobre como os dados mudam dentro do pipeline. A procedência de dados é normalmente usada no contexto de linhagem de dados, mas se refere especificamente à primeira instância desses dados ou sua fonte.

A linhagem de dados oferece uma trilha de auditoria para os dados em um nível muito granular; esse tipo de detalhamento é incrivelmente útil para depurar quaisquer erros de dados, permitindo que os engenheiros de dados solucionem problemas de forma mais eficaz e identifiquem resoluções mais rapidamente. Embora o escopo da governança de dados seja mais amplo do que a linhagem e a procedência de dados, esse aspecto do gerenciamento de dados é importante para impor os padrões organizacionais.

Por que as empresas usam a linhagem de dados

Por que as empresas usam a linhagem de dados

Dados confiáveis são essenciais  para gerar uma melhor tomada de decisões e aprimoramento de processos em todos os aspectos dos negócio, de vendas a recursos humanos. No entanto, essas informações só serão valiosas se os stakeholders mantiverem a confiança na sua exatidão, uma vez que os insights serão tão bons quanto a qualidade dos dados. A linhagem de dados oferece visibilidade das alterações que podem ocorrer como resultado de migrações de dados, atualizações do sistema, erros e muito mais, garantindo a integridade dos dados durante todo o ciclo de vida.

A linhagem de dados documenta a relação entre os dados corporativos em vários aplicativos de negócios e de TI. Esses detalhes podem incluir:

  • Onde os dados estão e como são armazenados em um ambiente, como no local, em um data warehouse ou em um data lake.
  • Como os dados podem ser usados e quem é responsável por atualizar, usar e alterar os dados. Isso também inclui as funções e aplicações que estão autorizadas a acessar segmentos específicos de dados confidenciais, como por exemplo informação de identificação pessoal (IIP).
  • Rastreamento de dados gerados, carregados e alterados por usuários corporativos e aplicações. Por exemplo, pode ser a adição de contatos a um sistema de gerenciamento de relacionamento com o cliente (CRM) ou uma transformação de dados, como a remoção de registros duplicados.
  • Dados criados e integrados de diferentes partes da organização, como hardware de rede e servidores.
Como funciona a linhagem de dados

Como funciona a linhagem de dados

Os metadados permitem que os usuários de ferramentas de linhagem de dados entendam totalmente como os dados fluem pelo pipeline de dados. Metadados são os "dados sobre os dados", que incluem várias informações sobre os ativos de dados, como tipo, formato, estrutura, autor, data de criação, data de modificação e tamanho do arquivo. As ferramentas de linhagem de dados fornecem uma imagem completa dos metadados para orientar os usuários enquanto determinam a utilidade dos dados.

Nos últimos anos, as formas de armazenar e aproveitar os dados evoluíram com a evolução do big data. As empresas estão investindo mais em ciência de dados para impulsionar a tomada de decisões e os resultados de negócios. No entanto, para que possam construir uma análise bem formada, será necessário utilizar ferramentas de linhagem de dados e catálogos de dados para exercícios de descoberta de dados e mapeamento de dados. Enquanto as ferramentas de linhagem de dados mostram a evolução dos dados ao longo do tempo por meio de metadados, um catálogo de dados usa as mesmas informações para criar um inventário pesquisável de todos os ativos de dados em uma organização. Juntos, eles permitem que os cidadãos de dados entendam a importância de diferentes elementos de dados para um determinado resultado, o que é fundamental no desenvolvimento de qualquer algoritmo de aprendizado de máquina.

Casos de uso de linhagem de dados

Casos de uso de linhagem de dados

Atualmente, as empresas têm uma necessidade cada vez maior de insights em tempo real, mas essas descobertas dependem do entendimento dos dados e de sua jornada ao longo do pipeline. Algumas das maneiras pelas quais as equipes podem aproveitar as ferramentas de linhagem de dados de ponta a ponta para melhorar os fluxos de trabalho incluem:

Modelagem de dados: para criar representações visuais dos diferentes elementos de dados e seus vínculos correspondentes dentro de uma empresa, as empresas devem definir as estruturas de dados subjacentes que os suportam. A linhagem de dados ajuda a modelar essas relações, ilustrando as diferentes dependências em todo o ecossistema de dados. Como os dados evoluem com o tempo, sempre surgem novas fontes de dados, novas integrações de dados que precisam ser feitas etc. Como resultado, o modelo de dados geral que as empresas usam para gerenciar seus dados também precisa se adaptar ao ambiente em mudança. A linhagem de dados ajuda a refletir com precisão essas mudanças ao longo do tempo por meio de diagramas de modelos de dados, destacando conexões ou tabelas novas ou desatualizadas. Isso, por sua vez, ajuda analistas e cientistas de dados a viabilizar análises valiosas e oportunas, pois terão uma melhor compreensão dos conjuntos de dados.

Migração de dados: ao migrar dados para um novo sistema de armazenamento ou integrar um novo software, as organizações usam a migração de dados para entender os locais e o ciclo de vida dos dados. Como a linhagem de dados fornece uma visão de como esses dados progrediram na organização, ela auxilia as equipes a planejar essas migrações ou atualizações do sistema, acelerando a transição geral para o novo ambiente de armazenamento. Também oferece às equipes a oportunidade de limpar o sistema de dados, arquivando ou excluindo dados antigos e irrelevantes; isso, por sua vez, pode melhorar o desempenho geral do sistema de dados, reduzindo a quantidade de dados que ele precisa gerenciar.

Conformidade: a linhagem de dados fornece um mecanismo de conformidade para auditoria, melhorando o gerenciamento de riscos e garantindo que os dados sejam armazenados e processados de acordo com as políticas e regulamentos de governança de dados. Por exemplo, em 2016, a legislação GDPR foi criada para proteger os dados pessoais de pessoas na União Europeia e no Espaço Econômico Europeu, dando aos indivíduos mais controle de seus dados. Nos Estados Unidos, estados individuais, como a Califórnia, desenvolveram políticas, como a California Consumer Privacy Act (CCPA), que exigia que as empresas informassem os consumidores sobre a coleta de seus dados. Esse tipo de legislação torna o armazenamento e a segurança desses dados prioridades máximas e, sem ferramentas de linhagem de dados, as organizações considerariam os problemas de não conformidade uma tarefa demorada e cara.

Análise de impacto: as ferramentas de linhagem de dados podem fornecer visibilidade sobre o impacto de mudanças específicas nos negócios, como qualquer relatório downstream. Por exemplo, se o nome de um elemento de dados mudar, a linhagem de dados pode ajudar os líderes a entender quantos dashboards podem afetar e, posteriormente, quantos usuários que acessam esses relatórios. Também pode ajudar a avaliar o impacto dos erros de dados e a exposição em toda a organização. Erros de dados podem ocorrer por uma infinidade de razões, o que pode minar a confiança em determinados relatórios ou fontes de dados de business intelligence, mas as ferramentas de linhagem de dados podem ajudar as equipes a rastreá-los até a fonte, permitindo otimizações no processamento de dados e a comunicação com as respectivas equipes.

Soluções IBM

Soluções IBM

IBM Cloud Pak for Data

Faça previsões mais rápidas usando uma plataforma criada com arquitetura de malha de dados. Colete, organize e analise dados, não importa onde residam.

IBM Cloud Pak for Data
IBM Knowledge Catalog

Ative dados prontos para negócios para IA e análises de dados com catalogação inteligente, apoiada por metadados ativos e gerenciamento de políticas.

IBM Knowledge Catalog
Dê o próximo passo

Escale cargas de trabalho de IA para todos os seus dados, em qualquer lugar, com o IBM watsonx.data, um armazenamento de dados feito sob medida, construído em uma arquitetura aberta de data lakehouse.

Explore o watsonx.data Agende uma demonstração em tempo real