Filtragem de dados armazenados em tabelas no Impala em Data Refinery
Refinar os dados armazenados nas tabelas do ` Impala ` no cluster ` Hadoop `.
Pré-requisito
Crie a conexão com o cluster do Hadoop. Veja a conexão Impala via Execution Engine for Hadoop.
Restrições
A origem e o destino do fluxo Data Refinery e o ambiente Hadoop devem fazer referência ao mesmo sistema Hadoop.
É necessário utilizar um ambiente do tipo “ Hadoop ” para executar tarefas do tipo “ Data Refinery ” em um cluster do tipo “ Hadoop ”.
No ` Impala `, o ` Data Refinery ` suporta apenas tarefas que gravam em tabelas com arquivos no formato Parquet.
Se você for sobrescrever ou recriar o conjunto de dados de destino, é necessário ter
writepermissão (especificamente adeletepermissão) para o diretório de dados HDFS da tabela Impala.Por exemplo, se o diretório de dados HDFS da tabela Impala for
/user/hive/warehouse/table_namee você não tiver permissãodeletede para os arquivos de dados nesse diretório, execute este comando para alterar o proprietário:hdfs dfs -chown -Rnew_owner:hive /user/hive/warehouse/table_nameSe você quiser usar a ação “Substituir tabela” com uma tabela externa como destino, essa tabela externa deve estar vazia.
Procedimento
Crie um ativo de dados conectado para a fonte (os dados que você deseja refinar):
- Acesse a página do projeto.
- Clique em Ativos > Importar ativo > Dados conectados.
- Clique em “Selecionar fonte ”.
- Selecione a conexão “ Impala via Execution Engine for Hadoop ”. Navegue até os dados desejados e clique em Selecionar.
- Digite um nome e uma descrição.
- Clique em Criar. O recurso aparece na página Recursos do projeto.
Repita o passo 1 para criar um ativo de dados conectado para o arquivo de destino da saída do fluxo “ Data Refinery ”.
Crie um fluxo do Data Refinery :
- Clique no recurso de dados conectado correspondente à fonte que você criou na etapa 1.
- Clique em “Preparar dados” para abrir o “ Data Refinery ”.
- Aplique operações para refinar os dados.
Altere o local de destino do arquivo de saída:
- Clique no ícone de configurações
do Flow na barra de ferramentas. Vá até a guia “Conjunto de dados de destino ” e clique em “Selecionar destino ”. - Clique em “Ativo de dados ”, selecione o ativo de dados conectado para o arquivo de saída de destino e clique em “Avançar ”.
- Na janela “Selecionar propriedades de destino e formato ”, selecione um modo de gravação e uma ação de tabela.
- Clique em “Salvar” e, em seguida, em “Aplicar ”.
- Clique no ícone de configurações
Crie uma tarefa que execute o fluxo Data Refinery no ambiente Hadoop :
- Na barra de ferramentas do Data Refinery, clique no ícone "Trabalhos " e
, em seguida, selecione "Salvar e criar um trabalho ". - Digite um nome e uma descrição. Selecione o ambiente Hadoop.
- Opcional: adicione uma programação única ou recorrente.
- Crie a tarefa e execute-a imediatamente, ou crie a tarefa e execute-a mais tarde.
- Na barra de ferramentas do Data Refinery, clique no ícone "Trabalhos " e
Após a conclusão da tarefa, sincronize novamente os metadados do ` Impala `. No cluster Hadoop, conecte-se ao impala-shell no banco de dados e execute este comando:
REFRESHtable_name