Iniciação rápida: refinando dados
É possível economizar tempo na preparação de dados transformando rapidamente grandes quantidades de dados brutos em informações consumíveis de alta qualidade prontas para análise. Leia sobre a ferramenta Data Refinery, em seguida, assista um vídeo e um tutorial, que é adequado para iniciantes e não requer codificação.
O fluxo de trabalho básico inclui estas tarefas:
- Projetos nos quais seja possível colaborar com outras pessoas para trabalhar com dados.
- Inclua seus dados no projeto. É possível incluir dados ou arquivos CSV de uma origem de dados remota por meio de uma conexão.
- Abra os dados no Data Refinery.
- Execute as etapas usando operações para refinar os dados.
- Crie e execute uma tarefa para transformar os dados.
Leia mais sobre o Data Refinery
Use o Data Refinery para purificar e modelar dados tabulares com um editor de fluxo gráfico. Além disso, é possível usar modelos interativos para operações de código, funções e operadores lógicos. Ao purificar dados, você corrige ou remove dados que estão incorretos, incompletos, inadequadamente formatados ou duplicados. Ao modelar dados, você customiza-os filtrando, classificando, combinando ou removendo colunas e executando operações.
Crie um fluxo do Data Refinery como um conjunto de operações solicitadas nos dados. O Data Refinery inclui uma interface gráfica para criar perfil de seus dados para validá-los e mais de 20 gráficos customizáveis que lhe dão perspectiva e insights sobre seus dados. Ao salvar o conjunto de dados refinado, você geralmente carrega-o em um local diferente de onde ele foi lido. Dessa forma, seus dados de origem permanecem intocados pelo processo de refinamento.
Assista a um vídeo sobre refinamento de dados
Assista este vídeo para obter informações sobre o refinamento de dados.
Este vídeo oferece um método visual para aprender os conceitos e as tarefas desta documentação.
Experimente um tutorial para refinar dados
Neste tutorial, você concluirá estas tarefas:
- Tarefa 1: abrir um projeto.
- Tarefa 2: Abra o conjunto de dados em Data Refinery.
- Tarefa 3: Revisar os dados com Perfil e Visualizações.
- Tarefa 4: Refinar os dados.
- Tarefa 5: Executar um trabalho para o fluxo Data Refinery .
- Tarefa 6: Criar outro ativo de dados a partir do fluxo Data Refinery .
- Tarefa 7: Visualizar os ativos de dados e seu fluxo de Data Refinery em seu projeto.
Este tutorial levará aproximadamente 30 minutos para ser concluído.
Dicas para concluir este tutorial
Aqui estão algumas dicas para concluir com sucesso este tutorial.
Configure as janelas do navegador
Para uma experiência ideal ao concluir este tutorial, abra sua conta em uma janela do navegador e mantenha esta página do tutorial aberta em outra janela do navegador para alternar facilmente entre as duas janelas. Considere organizar as duas janelas do navegador lado a lado para facilitar o acompanhamento.

Tarefa 1: Abrir um Projeto
É necessário ter um projeto para armazenar os dados e o fluxo do Data Refinery. Você pode usar um projeto existente ou criar um projeto.
No Menu de
Navegação, selecione Projetos > Exibir todos os projetos.
Abra um projeto existente. Se você quiser usar um novo projeto:
Clique em Novo projeto.
Selecione Criar um projeto vazio.
Insira um nome e uma descrição opcional para o projeto
Escolha uma instância de serviço de armazenamento de objetos existente ou crie uma nova.
Clique em Criar.
Verifique seu progresso
A imagem a seguir mostra um novo projeto vazio.

Para obter mais informações ou assistir ao vídeo, consulte Criando um projeto.
Tarefa 2: Abra o conjunto de dados em Data Refinery
Para visualizar esta tarefa, assista o vídeo a partir de 00:05.
Siga estas etapas para incluir um ativo de dados em seu projeto e criar um fluxo do Data Refinery O conjunto de dados que você usará neste tutorial está disponível no hub de recursos. Se sua conta watsonx for da região de Dallas IBM Cloud, você pode seguir o link. Caso contrário, procure a amostra de dados da companhia aérea no hub de recursos. Esses dados de amostra podem não estar disponíveis em todas as regiões ou plataformas de nuvem. Nesse caso, você pode usar qualquer amostra de dados semelhante de sua escolha.
Acesse os dados da companhia aérea no hub de recursos.
Clique em Incluir no projeto.
Selecione seu projeto na lista e clique em Add (Adicionar ).
Após a inclusão do conjunto de dados, clique em Visualizar projeto.
Para obter mais informações sobre como adicionar um ativo de dados do hub de recursos a um projeto, consulte Carregamento e acesso a dados em um notebook.
Na guia Ativos , clique no ativo de dados do airline-data.csv para visualizar seu conteúdo
Clique em Preparar dados para abrir uma amostra do arquivo no Data Refinerye espere até que o Data Refinery leia e processe uma amostra dos dados.
Feche os painéis Informações e Etapas .
Verifique seu progresso
A imagem a seguir mostra o ativo de dados da companhia aérea aberto no Data Refinery

Tarefa 3: Revisar os dados com Perfil e Visualizações
Para visualizar esta tarefa, assista o vídeo a partir de 00:47.
O conteúdo de um ativo é automaticamente perfilado e classificado com base nos valores nessas colunas Siga estas etapas para usar as guias Perfil e Visualizações para explorar os dados.
Clique na guia Perfil para revisar a distribuição de frequência dos dados para que seja possível localizar os valores discrepantes.
Role pelas colunas para ver as estatísticas de cada coluna. As estatísticas mostram a amplitude interquartil e os desvios mínimo, máximo, médio e padrão em cada coluna.
Passe o mouse sobre uma barra para ver os detalhes adicionais
A imagem a seguir mostra a guia Perfil:

Clique na guia Visualizações.
Selecione a coluna UniqueCarrier para visualizar. Os gráficos sugeridos têm um ponto azul ao lado de seus ícones.
Clique no gráfico Pizza . Use as diferentes perspectivas disponíveis nos gráficos para identificar padrões, conexões e relacionamentos dentro dos dados.
Verifique seu progresso
A imagem a seguir mostra a guia Visualizações.. Agora você está pronto para refinar os dados.

Tarefa 4: Refinar os dados
Operações do Data Refinery
Data Refinery usa dois tipos de operações para refinar dados, operações da GUI e operações de codificação. Você usará ambos os tipos de operações neste tutorial.
As operações de GUI podem consistir em diversas etapas. Selecione uma operação em Nova etapa. Um subconjunto das operações da GUI também está disponível no menu Overflow (
) de cada coluna.
Ao abrir um arquivo no Data Refinery, a operação Converter tipo de coluna é automaticamente aplicada como a primeira etapa para converter quaisquer tipos de dados diferentes de sequência de caracteres para tipos de dados inferidos (por exemplo, para número inteiro, data, booleano, etc.). É possível desfazer ou editar essa etapa.
As Operações de codificação são modelos interativos para codificar operações, funções e operadores lógicos. A maioria das operações tem ajuda interativa. Clique no nome da operação na caixa de texto da linha de comandos para ver as operações de codificação e suas opções de sintaxe.
Para visualizar esta tarefa, assista ao vídeo a partir de 01:16.
O refinamento de dados é uma série de etapas para construir um Fluxo do Data Refinery. Conforme você passa por essa tarefa, visualize o painel Etapas para seguir seu progresso. É possível selecionar uma etapa para excluir ou editá-la. Se você cometer um erro, também pode clicar no ícone
Desfazer. Siga estas etapas para refinar os dados:.
Volte para a guia Dados.
Selecione a coluna Ano. Clique no menu Excesso (
) e selecione Ordenar em ordem decrescente.
Clique em Etapas para ver a nova etapa no painel Etapas
Concentre-se nos atrasos de uma companhia aérea específica. Este tutorial usa a United Airlines (UA), mas é possível escolher qualquer companhia aérea.
Clique em Nova etapa e, em seguida, escolha a operação da GUI Filtrar.
Escolha a coluna UniqueCarrier.
Para Operador, escolha É igual a.
Para Valor, digite a sequência de caracteres da companhia aérea cujas informações de atraso deseja consultar. Por exemplo,
UA.

Dê um clique em Aplicar. Role para a coluna UniqueCarrier para ver os resultados.
Crie uma nova coluna que inclua os tempos de atraso de chegada e de partida juntos.
Selecione a coluna DepDelay .
Observe que a operação Converter tipo de coluna foi automaticamente aplicada como a primeira etapa, para converter os tipos de dados String de todas as colunas cujos valores são números em tipos de dados Integer.
Clique em Nova etapa e, em seguida, escolha a operação da GUI Calcular.
Para Operador, escolha Adição.
Selecione Colunae escolha a coluna ArrDelay .
Selecione Criar nova coluna para resultados.
Para o nome da nova coluna, digite
TotalDelay.

Você pode posicionar a nova coluna no final da lista de colunas ou ao lado da coluna original. Nesse caso, selecione Avançar para a coluna original
Dê um clique em Aplicar. A nova coluna, TotalDelay, foi adicionada.
Mova a nova coluna TotalDelay para o início do conjunto de dados:
Na caixa de texto da linha de comandos, escolha a operação select.
Clique na palavra select e escolha select(`
<column>`, everything()).Clique em
`<column>`e, em seguida, escolha a coluna TotalDelay. Quando você concluir, o comando deverá ser semelhante a este:select(`TotalDelay`, everything())Dê um clique em Aplicar. A coluna TotalDelay é agora a primeira coluna.
Reduza os dados para quatro colunas: Year, Month, DayofMonth e TotalDelay. Use a operação de codificação group_by para dividir as colunas em grupos de ano, mês e dia.
Na caixa de texto da linha de comandos, escolha a operação group_by.
Clique em
<column>e, em seguida, escolha a coluna Ano.Antes de fechar o parêntese, digite:
,Month,DayofMonth. Quando você concluir, o comando deverá ser semelhante a este:group_by(`Year`,Month,DayofMonth)Dê um clique em Aplicar.
Use a operação de codificação selecionar para a coluna TotalDelay. Na caixa de texto da linha de comandos, escolha select.
Clique em<column>e escolha a coluna TotalDelay. O comando deve ser semelhante a este:select(`TotalDelay`)Dê um clique em Aplicar. Os dados formados agora consistem nas colunas Year, Month, DayofMonth e TotalDelay.
A imagem da tela a seguir mostra as quatro primeiras linhas dos dados.

Mostre a média dos valores da coluna TotalDelay e crie uma nova coluna AverageDelay :
Clique em Nova etapa e, em seguida, escolha a operação da GUI Agregar.
Para a Coluna, selecione TotalDelay
Para Operador, selecione Média..
Para Nome da coluna agregada, digite
AverageDelay.

Dê um clique em Aplicar.
A nova coluna AverageDelay é a média de todos os tempos de atraso..
Verifique seu progresso
A imagem a seguir mostra as primeiras quatro linhas dos dados.

Tarefa 5: Executar um trabalho para o fluxo Data Refinery
Para visualizar essa tarefa, assista ao vídeo começando em 04:16.
Ao executar uma tarefa para o fluxo do Data Refinery, as etapas são executadas no conjunto de dados inteiro. Você seleciona o tempo de execução e inclui um planejamento único ou de repetição. A saída do fluxo do Data Refinery é incluída nos ativos de dados no projeto. Siga estas etapas para executar um trabalho para criar o conjunto de dados refinados.
Na Data Refinery barra de ferramentas, clique no ícone Trabalhos e selecione Salvar e criar um trabalho.

Digite um nome e uma descrição para a tarefa e clique em Avançar.
Selecione um ambiente de tempo de execução e clique em Avançar.
(Opcional) Clique no botão de alternância para planejar uma execução. Especifique a data, o horário e se você gostaria que a tarefa se repetisse e clique em Avançar.
(Opcional) Ative as notificações para esta tarefa e clique em Avançar.
Revise os detalhes e clique em Criar e executar para executar a tarefa imediatamente.

Quando a tarefa for criada, clique no link detalhes da tarefa na notificação para visualizar a tarefa em seu projeto. Como alternativa, é possível navegar para a guia Tarefas no projeto e clicar no nome da tarefa para abri-la.
Quando o Status da tarefa for Concluído, use a trilha de navegação do projeto para navegar de volta para a guia Ativos no projeto.
Clique na seção Dados> ativos de dados para ver a saída do fluxo do Data Refinery , airline-data_shaped.csv.
Clique na seção Fluxos> Data Refinery fluxos para ver o Data Refinery fluxo, airline-data.csv_flow
Verifique seu progresso
A imagem a seguir mostra a guia Ativos com o fluxo do Data Refinery e o ativo em forma.

Tarefa 6: Criar outro ativo de dados a partir do fluxo Data Refinery
Para visualizar esta tarefa, assista ao vídeo a partir do minuto 05:26.
Siga estas etapas para refinar ainda mais o conjunto de dados editando o fluxo do Data Refinery :
Clique em airline-data.csv_flow para abrir o fluxo em Data Refinery
Classifique a coluna AverageDelay em ordem decrescente..
Selecione a coluna AverageDelay ..
Clique no menu da coluna Excesso (
) e selecione Ordenar em ordem decrescente.
Clique no ícone Configurações
de fluxo.Clique no painel Conjunto de Dados de Destino ..
Clique em Editar propriedades..
Na caixa de diálogo Formatar propriedades do destino, altere o nome do recurso de dados para
airline-data_sorted_shaped.csv.

Clique em Salvar para retornar para as configurações de Fluxo
Clique em Aplicar para salvar as configurações.
Na barra Data Refinery de ferramentas, clique no ícone Trabalhos e selecione Salvar e visualizar trabalhos.

Selecione a tarefa para os dados da companhia aérea e, em seguida, clique em Visualizar.
Na barra de ferramentas da janela Job, clique no ícone Executar tarefa.

Verifique seu progresso
A imagem a seguir mostra os detalhes da tarefa concluída:

Tarefa 7: Visualizar os ativos de dados e seu fluxo Data Refinery em seu projeto
Para visualizar esta tarefa, assista ao vídeo a partir dos 06:40.
Agora, siga estas etapas para visualizar os três ativos de dados, o original, o primeiro conjunto de dados refinado e o segundo conjunto de dados refinado:
Quando a tarefa for concluída, acesse a página do projeto.
Clique na guia Ativos.
Na seção Ativos de dados, você verá o conjunto de dados original transferido por upload e a saída dos dois fluxos do Data Refinery.
airline-data_sorted_shaped.csvairline-data_csv_shapedairline-data.csv
Clique no ativo de dados airline-data_csv_shaped para ver o atraso médio não classificado.. Navegue de volta para a guia Ativos
Clique no ativo de dados airline-data_sorted_shaped.csv para ver o atraso médio classificado em ordem decrescente. Navegue de volta para a guia Ativos
A seção Fluxos> Data Refinery mostra o fluxo do Data Refinery :
airline-data.csv_flow.
Verifique seu progresso
A imagem a seguir mostra a guia Ativos com todos os ativos exibidos.
