Refinamento de dados armazenados em tabelas em um data warehouse do Hive no Data Refinery

Refine dados armazenados em tabelas em um warehouse do Hive no cluster Hadoop.

Pré-requisito

Crie a conexão com o cluster Hadoop. Consulte Conexão Hive via Execution Engine for Hadoop.

Restrições

A origem e o destino do fluxo Data Refinery e o ambiente Hadoop devem fazer referência ao mesmo sistema Hadoop.

É necessário utilizar um ambiente do tipo “ Hadoop ” para executar tarefas do tipo “ Data Refinery ” em um cluster do tipo “ Hadoop ”.

Procedimento

  1. Crie um ativo de dados conectado para a origem (dados que você deseja refinar):

    1. Acesse a página do projeto.
    2. Clique em Ativos > Importar ativo > Dados conectados.
    3. Clique em Selecionar origem.
    4. Selecione a conexão Hive via Execution Engine for Hadoop. Navegue para os dados desejados e clique em Selecionar.
    5. Digite um nome e uma descrição.
    6. Clique em Criar. O ativo aparece na página Ativos do projeto.
  2. Repita a etapa 1 para criar um ativo de dados conectado no arquivo de destino da saída do fluxo do Data Refinery.

  3. Crie um fluxo do Data Refinery:

    1. Clique no ativo de dados conectado da origem que você criou na etapa 1.
    2. Clique em “Preparar dados” para abrir o “ Data Refinery ”.
    3. Aplique operações para refinar os dados.
  4. Mude o local de destino para o arquivo de saída:

    1. Clique no ícone de configurações Configurações de fluxo do Flow na barra de ferramentas. Vá até a guia “Conjunto de dados de destino ” e clique em “Selecionar destino ”.
    2. Clique em “Ativo de dados ”, selecione o ativo de dados conectado para o arquivo de saída de destino e clique em “Avançar ”.
    3. Na janela “Selecionar propriedades de destino e formato ”, selecione um modo de gravação e uma ação de tabela.
    4. Clique em “Salvar” e, em seguida, em “Aplicar ”.
  5. Crie uma tarefa que execute o fluxo Data Refinery no ambiente Hadoop :

    1. Na barra de ferramentas do Data Refinery, clique no ícone "Trabalhos " e Ícone de empregos, em seguida, selecione "Salvar e criar um trabalho ".
    2. Digitando um nome e uma descrição. Selecione o ambiente Hadoop.
    3. Opcional: inclua um planejo único ou de repetição.
    4. Crie a tarefa e execute-a imediatamente ou crie a tarefa e execute-a posteriormente.

Problemas conhecidos

Resolução de problemas de ambientes Hadoop

Saiba Mais