Refinamento de dados armazenados em tabelas em um data warehouse do Hive no Data Refinery
Refine dados armazenados em tabelas em um warehouse do Hive no cluster Hadoop.
Pré-requisito
Crie a conexão com o cluster Hadoop. Consulte Conexão Hive via Execution Engine for Hadoop.
Restrições
A origem e o destino do fluxo Data Refinery e o ambiente Hadoop devem fazer referência ao mesmo sistema Hadoop.
É necessário utilizar um ambiente do tipo “ Hadoop ” para executar tarefas do tipo “ Data Refinery ” em um cluster do tipo “ Hadoop ”.
Procedimento
Crie um ativo de dados conectado para a origem (dados que você deseja refinar):
- Acesse a página do projeto.
- Clique em Ativos > Importar ativo > Dados conectados.
- Clique em Selecionar origem.
- Selecione a conexão Hive via Execution Engine for Hadoop. Navegue para os dados desejados e clique em Selecionar.
- Digite um nome e uma descrição.
- Clique em Criar. O ativo aparece na página Ativos do projeto.
Repita a etapa 1 para criar um ativo de dados conectado no arquivo de destino da saída do fluxo do Data Refinery.
Crie um fluxo do Data Refinery:
- Clique no ativo de dados conectado da origem que você criou na etapa 1.
- Clique em “Preparar dados” para abrir o “ Data Refinery ”.
- Aplique operações para refinar os dados.
Mude o local de destino para o arquivo de saída:
- Clique no ícone de configurações
do Flow na barra de ferramentas. Vá até a guia “Conjunto de dados de destino ” e clique em “Selecionar destino ”. - Clique em “Ativo de dados ”, selecione o ativo de dados conectado para o arquivo de saída de destino e clique em “Avançar ”.
- Na janela “Selecionar propriedades de destino e formato ”, selecione um modo de gravação e uma ação de tabela.
- Clique em “Salvar” e, em seguida, em “Aplicar ”.
- Clique no ícone de configurações
Crie uma tarefa que execute o fluxo Data Refinery no ambiente Hadoop :
- Na barra de ferramentas do Data Refinery, clique no ícone "Trabalhos " e
, em seguida, selecione "Salvar e criar um trabalho ". - Digitando um nome e uma descrição. Selecione o ambiente Hadoop.
- Opcional: inclua um planejo único ou de repetição.
- Crie a tarefa e execute-a imediatamente ou crie a tarefa e execute-a posteriormente.
- Na barra de ferramentas do Data Refinery, clique no ícone "Trabalhos " e