Refinando dados com o Data Refinery

Para refinar os dados, você os retira de um local, limpa e modela e, em seguida, escreve o resultado em um local diferente. É possível limpar e formar dados tabulares com uma ferramenta de editor de fluxo gráfico chamada Data Refinery.

Ao purificar dados, você corrige ou remove dados que estão incorretos, incompletos, inadequadamente formatados ou duplicados. Ao formar dados, você os customiza filtrando, classificando, combinando ou removendo colunas.

Você cria um Fluxo do Data Refinery como um conjunto de operações ordenadas nos dados. O Data Refinery inclui uma interface gráfica para traçar o perfil dos seus dados para validá-los e mais de 20 gráficos customizáveis que fornecem insights sobre seus dados.

Plataformas em nuvem
Formato de dados
Avro, CSV, JSON, Microsoft Excel (formatos xls e xlsx. Primeira folha apenas, exceto para conexões e ativos de dados conectados.), Parquet, SAS com a extensão "sas7bdat" (somente leitura), TSV (somente leitura) ou ativo de dados de texto delimitado
Tabelas em origens de dados relacionais
Tamanho dos dados
Any. O Data Refinery opera em um subconjunto de amostras de linhas no conjunto de dados. O tamanho da amostra é de 1 MB ou 10.000 linhas, o que vier primeiro. No entanto, ao executar uma tarefa para o fluxo do Data Refinery, todo o conjunto de dados é processado. Se o fluxo do Data Refinery falhar com um ativo de dados grande, consulte as soluções alternativas em Resolução de Problemas do Data Refinery

Pré-requisitos

Antes de poder refinar dados, você precisa de um projeto que use Cloud Object Storage. É possível usar o projeto sandbox ou criar um novo projeto.


Assista a este vídeo para ver como criar um projeto.

Este vídeo fornece um método visual para aprender os conceitos e tarefas nesta documentação.



Se você tiver dados em fontes de dados na nuvem ou no local, precisará " adicionar conexões para essas fontes ou " adicionar ativos de dados de cada conexão. Se desejar ser capaz de salvar dados refinados em origens de dados em nuvem ou no local, crie conexões para esse propósito também. No Data Refinery, as conexões de origem podem ser usadas apenas para ler dados; as conexões de destino podem ser usadas apenas para gravar dados. Ao criar uma conexão de destino, assegure-se de usar credenciais que tenham permissão de Gravação, ou você não conseguirá salvar sua saída de fluxo do Data Refinery no destino.


Assista a este vídeo para ver como criar uma conexão e incluir dados conectados a um projeto.
Renúncia de responsabilidade de vídeo: Algumas etapas secundárias e elementos gráficos neste vídeo podem ser diferentes de sua plataforma

Este vídeo fornece um método visual para aprender os conceitos e tarefas nesta documentação.


Limitações de arquivo de origem

arquivos CSV

Certifique-se que os arquivos CSV estejam corretamente formatados e se adéquem às regras a seguir:

  • Duas vírgulas consecutivas em uma linha indicam uma coluna vazia.
  • Se uma linha terminar com uma vírgula, uma coluna adicional será criada.
Nota:

Se o seu arquivo CVS contiver alguma carga maliciosa (fórmulas, por exemplo) em um campo de entrada, esses itens poderão ser executados.

Caracteres em espaço branco são considerados parte dos dados

Se seus dados incluírem colunas que contêm caracteres de espaço branco (vazio), o Data Refinery considerará esses caracteres de espaço branco parte dos dados, mesmo que você não possa vê-los na grade. Algumas ferramentas de banco de dados podem preencher sequências de caracteres com caracteres de espaço branco para que todos os dados em uma coluna tenham o mesmo comprimento; esta mudança afeta os resultados das operações de comparação de dados do Data Refinery.

Nome da coluna

Certifique-se de que os nomes de coluna se adéquem às regras a seguir:

  • Nomes de coluna duplicados não são permitidos. Os nomes da coluna devem ser exclusivos dentro do conjunto de dados. Os nomes da coluna não fazem distinção entre maiúsculas e minúsculas. Um conjunto de dados que inclui um nome de coluna "Vendas" e outro nome de coluna "vendas" não funcionará.
  • Os nomes de colunas não são palavras reservadas na linguagem de programação R.
  • Os nomes de colunas não são números. Uma solução alternativa é colocar os nomes da coluna entre aspas duplas ("").

Conjuntos de dados com colunas com o tipo de dados "Outro" não são suportados nos fluxos do Data Refinery

Se o seu conjunto de dados contiver colunas com tipos de dados identificados como "Outros" na visualização do watsonx.ai Studio, as colunas serão exibidas como o tipo de dados String no Data Refinery. No entanto, se você tentar usar os dados em um fluxo do Data Refinery, a tarefa para o fluxo do Data Refinery falhará. Um exemplo de um tipo de dados que mostra como "Outro" na visualização é o tipo de dados DECFLOAT do DB2.

Limitações de arquivo de destino

A limitação a seguir se aplica se você salvar a saída de fluxo Data Refinery (o conjunto de dados de destino) para um arquivo:

  • Não será possível mudar o formato de arquivo se o arquivo for um ativo de dados existente.

Visualizações do conjunto de dados

O Data Refinery fornece suporte para conjuntos de dados grandes, que podem ser demorados e difíceis de refinar. Para permitir que você trabalhe de forma rápida e eficiente, ele opera em um subconjunto de linhas no conjunto de dados enquanto você refina interativamente os dados. Ao executar uma tarefa para o fluxo do Data Refinery, ele opera no conjunto de dados inteiro.

Refinar seus dados

O vídeo a seguir mostra como refinar dados.

Renúncia de responsabilidade de vídeo: Algumas etapas secundárias e elementos gráficos neste vídeo podem ser diferentes de sua plataforma

Este vídeo fornece um método visual para aprender os conceitos e tarefas nesta documentação.


1. Acesse o Data Refinery de dentro de um projeto. Clique em Novo ativo> Preparar e visualizar dados.. Em seguida, selecione os dados com os qual você deseja trabalhar. Como alternativa, na guia Assets (Ativos ) de um projeto, clique em um ativo de dados para visualizá-lo e, em seguida, clique em Prepare data (Preparar dados).

2. Use etapas para aplicar operações que limpem, moldam e enricar seus dados. Navegue para Categorias de operação ou procurar uma operação específica e, em seguida, siga as instruções da IU. É possível inserir código R na linha de comandos e deixar que a conclusão automática o auxilie para obter a sintaxe correta. À medida que você aplica operações a um conjunto de dados, o Data Refinery mantém controle delas e constrói um fluxo do Data Refinery. Para cada operação que você aplica, o Data Refinery inclui uma etapa.

Guia Dados
Guia Dados

Quando seus dados contêm tipos de dados diferentes de sequência de caracteres, a operação da GUI Converter tipo de coluna é aplicada automaticamente como a primeira etapa no fluxo do Data Refinery ao abrir um arquivo no Data Refinery. Os tipos de dados são convertidos automaticamente em tipos de dados inferidos, como Número inteiro, Data ou Booleano. É possível desfazer ou editar essa etapa.

3. Clique na guia Profile (Perfil ) para validar seus dados durante todo o processo de refinamento de dados.

Guia Perfil
Guia de perfil

4. Clique na aba Visualizações para visualizar os dados em gráficos. Descubra padrões, tendências e correlações dentro de seus dados.

Guia Visualizações
Guia de visualizações

5. Refine o conjunto de dados de amostra para adequá-los às suas necessidades.

6. Clique em Salvar e criar uma tarefa ou Salvar e visualizar empregos na barra de ferramentas para executar o fluxo Data Refinery no conjunto de dados inteiro. Selecione o tempo de execução e inclua um planejamento único ou de repetição. Para obter informações sobre empregos, consulte Criando empregos em Data Refinery.

Para executar trabalhos, você precisa de uma chave de API de usuário. Normalmente, ele é criado automaticamente quando você cria seu primeiro trabalho. Você também pode criar manualmente uma chave de API em seu perfil e configurações.

Ao executar uma tarefa para o fluxo do Data Refinery, o conjunto de dados inteiro é processado. Assim, o trabalho pode criar um grande conjunto de dados de saída (destino) com base nas transformações e na quantidade de dados processados no fluxo. Por padrão, o resultado do fluxo do Data Refinery é salvo como um ativo de dados no projeto.

Para as ações que você pode fazer à medida que você refina seus dados, veja Gerenciando Data Refinery fluxos.

Próxima etapa

Analisar seus dados e construir modelos

Saiba mais