Iniciação rápida: refinando dados

É possível economizar tempo na preparação de dados transformando rapidamente grandes quantidades de dados brutos em informações consumíveis de alta qualidade prontas para análise. Leia sobre a ferramenta Data Refinery, em seguida, assista um vídeo e um tutorial, que é adequado para iniciantes e não requer codificação.

O fluxo de trabalho básico inclui estas tarefas:

  1. Projetos nos quais seja possível colaborar com outras pessoas para trabalhar com dados.
  2. Inclua seus dados no projeto. É possível incluir dados ou arquivos CSV de uma origem de dados remota por meio de uma conexão.
  3. Abra os dados no Data Refinery.
  4. Execute as etapas usando operações para refinar os dados.
  5. Crie e execute uma tarefa para transformar os dados.

Leia mais sobre o Data Refinery

Use o Data Refinery para purificar e modelar dados tabulares com um editor de fluxo gráfico. Além disso, é possível usar modelos interativos para operações de código, funções e operadores lógicos. Ao purificar dados, você corrige ou remove dados que estão incorretos, incompletos, inadequadamente formatados ou duplicados. Ao modelar dados, você customiza-os filtrando, classificando, combinando ou removendo colunas e executando operações.

Crie um fluxo do Data Refinery como um conjunto de operações solicitadas nos dados. O Data Refinery inclui uma interface gráfica para criar perfil de seus dados para validá-los e mais de 20 gráficos customizáveis que lhe dão perspectiva e insights sobre seus dados. Ao salvar o conjunto de dados refinado, você geralmente carrega-o em um local diferente de onde ele foi lido. Dessa forma, seus dados de origem permanecem intocados pelo processo de refinamento.

Leia mais sobre o refinamento de dados

Assista a um vídeo sobre refinamento de dados

Assista ao vídeo Assista este vídeo para obter informações sobre o refinamento de dados.

Este vídeo oferece um método visual para aprender os conceitos e as tarefas desta documentação.


Experimente um tutorial para refinar dados

Neste tutorial, você concluirá estas tarefas:

Este tutorial levará aproximadamente 30 minutos para ser concluído.




Dicas para concluir este tutorial
Aqui estão algumas dicas para concluir com sucesso este tutorial.

Configure as janelas do navegador

Para uma experiência ideal ao concluir este tutorial, abra sua conta em uma janela do navegador e mantenha esta página do tutorial aberta em outra janela do navegador para alternar facilmente entre as duas janelas. Considere organizar as duas janelas do navegador lado a lado para facilitar o acompanhamento.

Tutorial e IU lado a lado

Dica: se você encontrar um tour guiado ao concluir este tutorial na interface com o usuário, clique em Talvez posterior.



Tarefa 1: Abrir um Projeto

É necessário ter um projeto para armazenar os dados e o fluxo do Data Refinery. Você pode usar um projeto existente ou criar um projeto.

  1. No Menu de Menu de navegaçãoNavegação, selecione Projetos > Exibir todos os projetos.

  2. Abra um projeto existente. Se você quiser usar um novo projeto:

    1. Clique em Novo projeto.

    2. Selecione Criar um projeto vazio.

    3. Insira um nome e uma descrição opcional para o projeto

    4. Escolha uma instância de serviço de armazenamento de objetos existente ou crie uma nova.

    5. Clique em Criar.

ícone de ponto de verificação Verifique seu progresso

A imagem a seguir mostra um novo projeto vazio.

A imagem a seguir mostra um projeto novo e vazio.

Para obter mais informações ou assistir ao vídeo, consulte Criando um projeto.




Tarefa 2: Abra o conjunto de dados em Data Refinery

vídeo tutorial de visualização Para visualizar esta tarefa, assista o vídeo a partir de 00:05.

Siga estas etapas para incluir um ativo de dados em seu projeto e criar um fluxo do Data Refinery O conjunto de dados que você usará neste tutorial está disponível no hub de recursos. Se sua conta watsonx for da região de Dallas IBM Cloud, você pode seguir o link. Caso contrário, procure a amostra de dados da companhia aérea no hub de recursos. Esses dados de amostra podem não estar disponíveis em todas as regiões ou plataformas de nuvem. Nesse caso, você pode usar qualquer amostra de dados semelhante de sua escolha.

  1. Acesse os dados da companhia aérea no hub de recursos.

  2. Clique em Incluir no projeto.

  3. Selecione seu projeto na lista e clique em Add (Adicionar ).

  4. Após a inclusão do conjunto de dados, clique em Visualizar projeto.

    Para obter mais informações sobre como adicionar um ativo de dados do hub de recursos a um projeto, consulte Carregamento e acesso a dados em um notebook.

  5. Na guia Ativos , clique no ativo de dados do airline-data.csv para visualizar seu conteúdo

  6. Clique em Preparar dados para abrir uma amostra do arquivo no Data Refinerye espere até que o Data Refinery leia e processe uma amostra dos dados.

  7. Feche os painéis Informações e Etapas .

ícone de ponto de verificação Verifique seu progresso

A imagem a seguir mostra o ativo de dados da companhia aérea aberto no Data Refinery

A imagem a seguir mostra o ativo de dados da companhia aérea aberta em Data Refinery.




Tarefa 3: Revisar os dados com Perfil e Visualizações

vídeo tutorial de visualização Para visualizar esta tarefa, assista o vídeo a partir de 00:47.

O conteúdo de um ativo é automaticamente perfilado e classificado com base nos valores nessas colunas Siga estas etapas para usar as guias Perfil e Visualizações para explorar os dados.

Dica: Use as páginas Perfil e Visualizações para visualizar mudanças nos dados conforme você os refina.
  1. Clique na guia Perfil para revisar a distribuição de frequência dos dados para que seja possível localizar os valores discrepantes.

    1. Role pelas colunas para ver as estatísticas de cada coluna. As estatísticas mostram a amplitude interquartil e os desvios mínimo, máximo, médio e padrão em cada coluna.

    2. Passe o mouse sobre uma barra para ver os detalhes adicionais

    A imagem a seguir mostra a guia Perfil:
    Guia de perfil

  2. Clique na guia Visualizações.

    1. Selecione a coluna UniqueCarrier para visualizar. Os gráficos sugeridos têm um ponto azul ao lado de seus ícones.

    2. Clique no gráfico Pizza . Use as diferentes perspectivas disponíveis nos gráficos para identificar padrões, conexões e relacionamentos dentro dos dados.

ícone de ponto de verificação Verifique seu progresso

A imagem a seguir mostra a guia Visualizações.. Agora você está pronto para refinar os dados.

Guia de visualizações




Tarefa 4: Refinar os dados

Operações do Data Refinery

Data Refinery usa dois tipos de operações para refinar dados, operações da GUI e operações de codificação. Você usará ambos os tipos de operações neste tutorial.

  • As operações de GUI podem consistir em diversas etapas. Selecione uma operação em Nova etapa. Um subconjunto das operações da GUI também está disponível no menu Overflow (menu overflow) de cada coluna.

    Ao abrir um arquivo no Data Refinery, a operação Converter tipo de coluna é automaticamente aplicada como a primeira etapa para converter quaisquer tipos de dados diferentes de sequência de caracteres para tipos de dados inferidos (por exemplo, para número inteiro, data, booleano, etc.). É possível desfazer ou editar essa etapa.

  • As Operações de codificação são modelos interativos para codificar operações, funções e operadores lógicos. A maioria das operações tem ajuda interativa. Clique no nome da operação na caixa de texto da linha de comandos para ver as operações de codificação e suas opções de sintaxe.

vídeo tutorial de visualização Para visualizar esta tarefa, assista ao vídeo a partir de 01:16.

O refinamento de dados é uma série de etapas para construir um Fluxo do Data Refinery. Conforme você passa por essa tarefa, visualize o painel Etapas para seguir seu progresso. É possível selecionar uma etapa para excluir ou editá-la. Se você cometer um erro, também pode clicar no ícone DesfazerDesfazer. Siga estas etapas para refinar os dados:.

  1. Volte para a guia Dados.

  2. Selecione a coluna Ano. Clique no menu Excesso (Menu overflow) e selecione Ordenar em ordem decrescente.

  3. Clique em Etapas para ver a nova etapa no painel Etapas

  4. Concentre-se nos atrasos de uma companhia aérea específica. Este tutorial usa a United Airlines (UA), mas é possível escolher qualquer companhia aérea.

    1. Clique em Nova etapa e, em seguida, escolha a operação da GUI Filtrar.

    2. Escolha a coluna UniqueCarrier.

    3. Para Operador, escolha É igual a.

    4. Para Valor, digite a sequência de caracteres da companhia aérea cujas informações de atraso deseja consultar. Por exemplo, UA.
      Operação de filtro

    5. Dê um clique em Aplicar. Role para a coluna UniqueCarrier para ver os resultados.

  5. Crie uma nova coluna que inclua os tempos de atraso de chegada e de partida juntos.

    1. Selecione a coluna DepDelay .

    2. Observe que a operação Converter tipo de coluna foi automaticamente aplicada como a primeira etapa, para converter os tipos de dados String de todas as colunas cujos valores são números em tipos de dados Integer.

    3. Clique em Nova etapa e, em seguida, escolha a operação da GUI Calcular.

    4. Para Operador, escolha Adição.

    5. Selecione Colunae escolha a coluna ArrDelay .

    6. Selecione Criar nova coluna para resultados.

    7. Para o nome da nova coluna, digite TotalDelay.
      Operação Calcular

    8. Você pode posicionar a nova coluna no final da lista de colunas ou ao lado da coluna original. Nesse caso, selecione Avançar para a coluna original

    9. Dê um clique em Aplicar. A nova coluna, TotalDelay, foi adicionada.

  6. Mova a nova coluna TotalDelay para o início do conjunto de dados:

    1. Na caixa de texto da linha de comandos, escolha a operação select.

    2. Clique na palavra select e escolha select(`<column>`, everything()).

    3. Clique em `<column>` e, em seguida, escolha a coluna TotalDelay. Quando você concluir, o comando deverá ser semelhante a este:

      select(`TotalDelay`, everything())
      
    4. Dê um clique em Aplicar. A coluna TotalDelay é agora a primeira coluna.

  7. Reduza os dados para quatro colunas: Year, Month, DayofMonth e TotalDelay. Use a operação de codificação group_by para dividir as colunas em grupos de ano, mês e dia.

    1. Na caixa de texto da linha de comandos, escolha a operação group_by.

    2. Clique em <column> e, em seguida, escolha a coluna Ano.

    3. Antes de fechar o parêntese, digite: ,Month,DayofMonth. Quando você concluir, o comando deverá ser semelhante a este:

      group_by(`Year`,Month,DayofMonth)
      
    4. Dê um clique em Aplicar.

    5. Use a operação de codificação selecionar para a coluna TotalDelay. Na caixa de texto da linha de comandos, escolha select.
      Clique em <column> e escolha a coluna TotalDelay. O comando deve ser semelhante a este:

      select(`TotalDelay`)
      
    6. Dê um clique em Aplicar. Os dados formados agora consistem nas colunas Year, Month, DayofMonth e TotalDelay.

      A imagem da tela a seguir mostra as quatro primeiras linhas dos dados.
      As primeiras quatro linhas do fluxo do Data Refinery com as colunas Year, Month, DayofMonth e TotalDelay

  8. Mostre a média dos valores da coluna TotalDelay e crie uma nova coluna AverageDelay :

    1. Clique em Nova etapa e, em seguida, escolha a operação da GUI Agregar.

    2. Para a Coluna, selecione TotalDelay

    3. Para Operador, selecione Média..

    4. Para Nome da coluna agregada, digite AverageDelay.
      Operação agregada

    5. Dê um clique em Aplicar.

      A nova coluna AverageDelay é a média de todos os tempos de atraso..

ícone de ponto de verificação Verifique seu progresso

A imagem a seguir mostra as primeiras quatro linhas dos dados.

A imagem de tela a seguir mostra as primeiras quatro linhas dos dados.




Tarefa 5: Executar um trabalho para o fluxo Data Refinery

vídeo tutorial de visualização Para visualizar essa tarefa, assista ao vídeo começando em 04:16.

Ao executar uma tarefa para o fluxo do Data Refinery, as etapas são executadas no conjunto de dados inteiro. Você seleciona o tempo de execução e inclui um planejamento único ou de repetição. A saída do fluxo do Data Refinery é incluída nos ativos de dados no projeto. Siga estas etapas para executar um trabalho para criar o conjunto de dados refinados.

  1. Na Data Refinery barra de ferramentas, clique no ícone Trabalhos e selecione Salvar e criar um trabalho.
    Salvar e criar uma tarefa

  2. Digite um nome e uma descrição para a tarefa e clique em Avançar.

  3. Selecione um ambiente de tempo de execução e clique em Avançar.

  4. (Opcional) Clique no botão de alternância para planejar uma execução. Especifique a data, o horário e se você gostaria que a tarefa se repetisse e clique em Avançar.

  5. (Opcional) Ative as notificações para esta tarefa e clique em Avançar.

  6. Revise os detalhes e clique em Criar e executar para executar a tarefa imediatamente.
    criar tarefa

  7. Quando a tarefa for criada, clique no link detalhes da tarefa na notificação para visualizar a tarefa em seu projeto. Como alternativa, é possível navegar para a guia Tarefas no projeto e clicar no nome da tarefa para abri-la.

  8. Quando o Status da tarefa for Concluído, use a trilha de navegação do projeto para navegar de volta para a guia Ativos no projeto.

  9. Clique na seção Dados> ativos de dados para ver a saída do fluxo do Data Refinery , airline-data_shaped.csv.

  10. Clique na seção Fluxos> Data Refinery fluxos para ver o Data Refinery fluxo, airline-data.csv_flow

ícone de ponto de verificação Verifique seu progresso

A imagem a seguir mostra a guia Ativos com o fluxo do Data Refinery e o ativo em forma.

A imagem a seguir mostra a guia Assets com o fluxo Data Refinery e ativo em forma.




Tarefa 6: Criar outro ativo de dados a partir do fluxo Data Refinery

vídeo tutorial de visualização Para visualizar esta tarefa, assista ao vídeo a partir do minuto 05:26.

Siga estas etapas para refinar ainda mais o conjunto de dados editando o fluxo do Data Refinery :

  1. Clique em airline-data.csv_flow para abrir o fluxo em Data Refinery

  2. Classifique a coluna AverageDelay em ordem decrescente..

    1. Selecione a coluna AverageDelay ..

    2. Clique no menu da coluna Excesso (Menu overflow) e selecione Ordenar em ordem decrescente.

  3. Clique no ícone Configurações Configurações de fluxo de fluxo.

  4. Clique no painel Conjunto de Dados de Destino ..

  5. Clique em Editar propriedades..

    1. Na caixa de diálogo Formatar propriedades do destino, altere o nome do recurso de dados para airline-data_sorted_shaped.csv.
      nome do arquivo de saída alterado

    2. Clique em Salvar para retornar para as configurações de Fluxo

  6. Clique em Aplicar para salvar as configurações.

  7. Na barra Data Refinery de ferramentas, clique no ícone Trabalhos e selecione Salvar e visualizar trabalhos.
    Salvar e visualizar tarefas

  8. Selecione a tarefa para os dados da companhia aérea e, em seguida, clique em Visualizar.

  9. Na barra de ferramentas da janela Job, clique no ícone Executar tarefa.
    Executar tarefas

ícone de ponto de verificação Verifique seu progresso

A imagem a seguir mostra os detalhes da tarefa concluída:

A imagem a seguir mostra os detalhes da tarefa concluída




Tarefa 7: Visualizar os ativos de dados e seu fluxo Data Refinery em seu projeto

vídeo tutorial de visualização Para visualizar esta tarefa, assista ao vídeo a partir dos 06:40.

Agora, siga estas etapas para visualizar os três ativos de dados, o original, o primeiro conjunto de dados refinado e o segundo conjunto de dados refinado:

  1. Quando a tarefa for concluída, acesse a página do projeto.

  2. Clique na guia Ativos.

  3. Na seção Ativos de dados, você verá o conjunto de dados original transferido por upload e a saída dos dois fluxos do Data Refinery.

    • airline-data_sorted_shaped.csv
    • airline-data_csv_shaped
    • airline-data.csv
  4. Clique no ativo de dados airline-data_csv_shaped para ver o atraso médio não classificado.. Navegue de volta para a guia Ativos

  5. Clique no ativo de dados airline-data_sorted_shaped.csv para ver o atraso médio classificado em ordem decrescente. Navegue de volta para a guia Ativos

  6. A seção Fluxos> Data Refinery mostra o fluxo do Data Refinery : airline-data.csv_flow.

ícone de ponto de verificação Verifique seu progresso

A imagem a seguir mostra a guia Ativos com todos os ativos exibidos.

A imagem a seguir mostra a guia Recursos com todos os ativos exibidos.



Recursos adicionais