Curadoria de dados
Curadoria de dados é o processo de incluir ativos de dados em um projeto ou catálogo, enriquecê-los por meio de designação de classificações, classes de dados e termos de negócios e analisar e melhorar a qualidade dos dados.
Antes de iniciar a curadoria de dados, é necessário configurar o site IBM watsonx.data intelligence para que você tenha uma estrutura de governança e pelo menos um catálogo para compartilhar os ativos curados (consulte Planejamento para implementar a governança de dados ).
A curadoria pode ser um processo principalmente manual no qual os ativos de dados são curados um por vez. Curadoria avançada é um processo mais automatizado em que muitas das tarefas de curadoria são concluídas automaticamente para diversos ativos de dados simultaneamente.
Requisitos e restrições
Para curadoria de dados, existem os seguintes requisitos e restrições.
Ferramentas de curadoria de dados:
Você trabalha com estas ferramentas:
- Metadata import
- Enriquecimento de metadados
serviço necessário
A curadoria de dados requer IBM watsonx.data intelligence. A análise avançada no contexto do enriquecimento de metadados (criação avançada de perfis e análises detalhadas de chaves e relacionamentos) também requer o serviço DataStage.
Formatos de dados
Os seguintes formatos de dados são suportados:
- Tabelas de fontes de dados relacionais e não relacionais, Amazon S3 Delta Lake tabelas
- Metadata import: qualquer formato de conexões baseadas em arquivo para as origens de dados
- Enriquecimento de metadados: Tabular: CSV, TSV, Avro, Parquet, Microsoft Excel
Para obter informações sobre conectores suportados, consulte Origens de dados suportadas para curadoria e qualidade de dados.
Tamanho dos dados
A curadoria de dados funciona com dados de qualquer tamanho
Permissões necessárias
Suas funções determinam quais tarefas de curadoria você pode executar:
- Deve-se ter o CloudPak Data Steward ou uma função customizada com pelo menos o mesmo conjunto de ações. Consulte Funções predefinidas..
- Para trabalhar com os ativos associados às ferramentas de curadoria, também deve-se ter funções específicas em projetos e catálogos Para os requisitos exatos, consulte as ferramentas individuais.
Áreas de trabalho
É possível executar tarefas de curadoria nestas áreas de trabalho:
- Projetos
- Catálogos
Dependendo das tarefas de curadoria desejadas, é necessário trabalhar no ativo de dados em um projeto, catálogo ou ambos antes de os dados estarem prontos para serem usados por outros usuários.
Um projeto é uma área de trabalho colaborativa na qual geralmente se prepara e analisa dados antes de eles serem publicados em um catálogo para serem disponibilizados para outros usuários na organização. Você também pode adicionar dados em um catálogo diretamente se você puder compartilhá-lo sem mais preparação. Certos tipos de dados podem ser adicionados apenas aos catálogos.
Tarefas de curadoria
Estas tarefas de curadoria permitem desenvolver ativos de dados importantes:
Incluir ativos de dados em um projeto ou catálogo:
- Adicione ativos de uma conexão a uma fonte de dados, manualmente um por um ou vários ativos de dados automaticamente através de importação de metadados. Deixe seus dados onde ele está na nuvem ou no local, e basta adicionar metadados de ativos e as informações de conexão para acessar os dados dentro de um projeto ou um catálogo.
- Faça upload de arquivos individuais no armazenamento associado ao projeto ou catálogo.
- Inclua manualmente os ativos de um catálogo ou projeto para trabalhar com eles.
Analisar e enriquecer dados:
Defina o perfil de ativos de dados individuais para obter estatísticas básicas sobre o conteúdo do ativo e para designar classes de dados, dentro de um projeto ou catálogo. Consulte Definindo perfis de ativos de dados.
Crie e execute um enriquecimento de metadados em um projeto.
- Crie o perfil de vários ativos de dados em uma única execução para designar classes de dados automaticamente e identificar tipos de dados e formatos de colunas.
- Execute a análise de qualidade em vários conjuntos de dados em uma única execução para varrer problemas comuns de qualidade de dados, como valores ausentes ou violações de classe de dados
- Designar automaticamente termos de negócios para ativos e gerar sugestões de termos com base em algoritmos de classificação de dados ou de aprendizado de máquina
- Forneça chaves primárias e estrangeiras e relacionamentos candidatos entre ativos e colunas com base em estatísticas de criação de perfil e semelhanças de nomes entre colunas.
Revise os resultados do enriquecimento. Uma visão geral das pontuações de qualidade para os ativos de dados está disponível no ativo de enriquecimento de metadados no projeto. É possível visualizar os resultados detalhados para cada ativo de dados ou coluna clicando no índice de qualidade. Como alternativa, é possível acessar as informações na guia Qualidade de dados de um ativo, dentro de um projeto ou catálogo.
Execute uma análise mais profunda dos dados reais: análise de chave primária, análise de relacionamento chave, análise de sobreposição ou perfil de dados avançado
Reexecute a importação e as tarefas de enriquecimento em intervalos, para descobrir e avaliar mudanças em ativos de dados. É possível fazer isso manualmente ou configurar planejamentos para importação e enriquecimento.
Avaliar a qualidade dos dados, executando regras de qualidade de dados.
Refinar os dados para melhorar a qualidade e utilidade deles em um projeto.
Publicar ativos de um projeto em um catálogo.
Classificar e revisar ativos de dados dentro de um catálogo.
Criar tags e incluí-las em ativos de dados dentro de um catálogo.
Incluir classificações e termos de negócios em ativos de dados individuais em um catálogo.
| Tarefa | Onde executá-la manualmente? | Onde executá-la automaticamente? |
|---|---|---|
| Criar ativos | Projetos Catálogos |
Projetos Catálogos |
| Designar classes de dados | Projetos Catálogos |
Projetos Catálogos |
| Designar classificações | Catálogos | — |
| Designar termos de negócios | Projetos Catálogos |
Projetos |
| Analisar qualidade de dados (enriquecimento de metadados) |
Projetos | Projetos |
| Identificar chaves, relações-chave e dados sobrepostos | Projetos | Projetos |
| Avaliar a qualidade dos dados (regras) | Projetos | Projetos |
Fluxo de amostra: curadoria avançada
Um fluxo de curadoria pode ter essas tarefas:
Em um projeto, crie e execute uma importação de metadados com o objetivo Descobrir para fazer uma importação em massa de metadados de uma conexão com o projeto. Você também pode configurar a importação de metadados para executar em um cronograma único ou de repetição.
No mesmo projeto, crie e execute um enriquecimento de metadados para completar essas tarefas para o conjunto de ativos de dados importados em uma única execução:
- Criar perfil do ativo de dados.
- Executar uma análise de qualidade nos ativos de dados.
- Designar automaticamente termos de negócios a ativos importados e gerar sugestões de termo.
- Identificar chaves primárias e estrangeiras para gerar relacionamentos candidatos entre ativos e colunas.
Você também pode configurar um cronograma único ou de repetição para o seu enriquecimento de metadados. Você pode alinhar sua programação de enriquecimento com o planejamento configurado para a importação de metadados.
Revisar os resultados de enriquecimento para os ativos de dados e suas colunas.
Opcional: Executar análises adicionais sobre os ativos de dados no enriquecimento de metadados.
Publique os ativos de dados enriquecidos no catálogo.
Fluxo de amostras: disponibilização de ativos enriquecidos e sua linhagem para consumo
Disponibilizar ativos enriquecidos e sua linhagem para usuários corporativos pode incluir essas tarefas:
- No catálogo de ativos da plataforma, crie uma definição de fonte de dados que inclua a conexão que você deseja verificar.
- Em um projeto, crie uma cópia de referência da conexão com a fonte de dados.
- Crie e execute uma importação de metadados com os objetivos Importar metadados de ativos e Importar metadados de linhagem. O destino da importação de metadados de ativos deve ser o projeto.
- No mesmo projeto, crie e execute um ativo de enriquecimento de metadados para os ativos importados. Selecione o ativo de importação de metadados da etapa 1 como escopo de dados.
- Revise os resultados do enriquecimento e publique os ativos enriquecidos em um catálogo.
- Verifique as informações de linhagem. Vá para Dados > Linhagem de dados > Exibir linhagem.
Para automatizar o processo, você pode programar os trabalhos de importação e enriquecimento de metadados e alinhar essas programações.
É possível realizar a maioria das tarefas de curadoria com APIs em vez da interface com o usuário. Os links para a API IBM Knowledge Catalog estão listados para cada tarefa aplicável.