Filtragem de dados armazenados em tabelas no Impala em Data Refinery

Refinar os dados armazenados nas tabelas do ` Impala ` no cluster ` Hadoop `.

Pré-requisito

Crie a conexão com o cluster do Hadoop. Veja a conexão Impala via Execution Engine for Hadoop.

Restrições

  • A origem e o destino do fluxo Data Refinery e o ambiente Hadoop devem fazer referência ao mesmo sistema Hadoop.

  • É necessário utilizar um ambiente do tipo “ Hadoop ” para executar tarefas do tipo “ Data Refinery ” em um cluster do tipo “ Hadoop ”.

  • No ` Impala `, o ` Data Refinery ` suporta apenas tarefas que gravam em tabelas com arquivos no formato Parquet.

  • Se você for sobrescrever ou recriar o conjunto de dados de destino, é necessário ter write permissão (especificamente a delete permissão) para o diretório de dados HDFS da tabela Impala.

    Por exemplo, se o diretório de dados HDFS da tabela Impala for /user/hive/warehouse/table_name e você não tiver permissão delete de para os arquivos de dados nesse diretório, execute este comando para alterar o proprietário:

    hdfs dfs -chown -R new_owner:hive /user/hive/warehouse/table_name

  • Se você quiser usar a ação “Substituir tabela” com uma tabela externa como destino, essa tabela externa deve estar vazia.

Procedimento

  1. Crie um ativo de dados conectado para a fonte (os dados que você deseja refinar):

    1. Acesse a página do projeto.
    2. Clique em Ativos > Importar ativo > Dados conectados.
    3. Clique em “Selecionar fonte ”.
    4. Selecione a conexão “ Impala via Execution Engine for Hadoop ”. Navegue até os dados desejados e clique em Selecionar.
    5. Digite um nome e uma descrição.
    6. Clique em Criar. O recurso aparece na página Recursos do projeto.
  2. Repita o passo 1 para criar um ativo de dados conectado para o arquivo de destino da saída do fluxo “ Data Refinery ”.

  3. Crie um fluxo do Data Refinery :

    1. Clique no recurso de dados conectado correspondente à fonte que você criou na etapa 1.
    2. Clique em “Preparar dados” para abrir o “ Data Refinery ”.
    3. Aplique operações para refinar os dados.
  4. Altere o local de destino do arquivo de saída:

    1. Clique no ícone de configurações Configurações de fluxo do Flow na barra de ferramentas. Vá até a guia “Conjunto de dados de destino ” e clique em “Selecionar destino ”.
    2. Clique em “Ativo de dados ”, selecione o ativo de dados conectado para o arquivo de saída de destino e clique em “Avançar ”.
    3. Na janela “Selecionar propriedades de destino e formato ”, selecione um modo de gravação e uma ação de tabela.
    4. Clique em “Salvar” e, em seguida, em “Aplicar ”.
  5. Crie uma tarefa que execute o fluxo Data Refinery no ambiente Hadoop :

    1. Na barra de ferramentas do Data Refinery, clique no ícone "Trabalhos " e Ícone de empregos, em seguida, selecione "Salvar e criar um trabalho ".
    2. Digite um nome e uma descrição. Selecione o ambiente Hadoop.
    3. Opcional: adicione uma programação única ou recorrente.
    4. Crie a tarefa e execute-a imediatamente, ou crie a tarefa e execute-a mais tarde.
  6. Após a conclusão da tarefa, sincronize novamente os metadados do ` Impala `. No cluster Hadoop, conecte-se ao impala-shell no banco de dados e execute este comando:

    REFRESH table_name

Problemas conhecidos

Solução de problemas em ambientes do ` Hadoop `

Saiba mais