Analytics for Hadoop no Bluemix, Parte 3

Analytics for Hadoop no Bluemix: Carregar dados no InfoSphere BigInsights

Comments

Conteúdos da série:

Esse conteúdo é a parte # de # na série: Analytics for Hadoop no Bluemix, Parte 3

Fique ligado em conteúdos adicionais dessa série.

Esse conteúdo é parte da série:Analytics for Hadoop no Bluemix, Parte 3

Fique ligado em conteúdos adicionais dessa série.

Dados de negócios são armazenados em vários formatos e fontes. Antes de importar seus dados no sistema de arquivos distribuídos IBM® InfoSphere BigInsights, você deve:

  • Determinar quais perguntas deseja responder através de análises
  • Identificar o tipo de dado de suas fontes
  • Usar as ferramentas e os procedimentos que melhor se encaixam nas suas necessidades de negócios

É possível usar o InfoSphere BigInsights com sua infraestrutura existente ou com dados warehouse para importar os dados e o conteúdo em seu formato original, importar grandes volumes de dados em repouso (estáticos) ou dados de recebimento em movimento (dados atualizados continuamente). Após importar os dados, é possível explorá-los separadamente ou combiná-los para concluir a exploração e análise.

Muitas empresas podem querer examinar a popularidade de uma marca específica ou um serviço em mídia social. Os dados que são fornecidos para o tutorial são resultado de uma busca de aplicativo BoardReader para instâncias da frase "IBM Watson™" na Internet. Essa busca é detalhada no tutorial "Analisando a Mídia Social e os Dados Estruturados com o InfoSphere BigInsights: obtenha uma iniciação rápida com o BigSheets" (developerWorks, junho de 2012).

Você vai precisar dos dados que são referenciados nesse tutorial, então fazer o download antes de continuar.

Aceite os termos e condições e salve o arquivo article_sampleData em seu sistema local. Após extrair o conteúdo do arquivo, a pasta article_sampleData contém os arquivos RDBMS_data.csv, blogs-data.txt, news-data.txt e um arquivo README.txt que detalha a saída de dados. Observe onde salva esses arquivos, já que você fará upload deles na nuvem em breve.

Para este tutorial e o próximo nesta série, apenas dados de notícias e de blogs que foram retornados na busca serão usados. Os dados retornados foram levemente modificados para conter apenas um subconjunto das informações que o aplicativo BoardReader coleta de feed de notícias e blogs. O conteúdo completo do texto/HTML dos posts, itens de notícias e certos metadados foi removido para manter o tamanho de cada arquivo gerenciável.

Agora, observe sistema de arquivos e crie uma pasta onde você carregará os dados.

Criar uma pasta

  1. Abra o console da web InfoSphere BigInsights.
  2. Na tarefa Files guia, selecione a pasta hdfs. (Observação: a pasta hdfs já pode estar aberta.)
  3. Dentro da pasta hdfs, navegue até a pasta do usuário e localize sua pasta específica com seu ID do usuário. (Observação: este ID está na página de inicialização do IBM Analytics for Hadoop.) Screen capture of folder navigation - hdfs > user > CIFAA417
    Screen capture of folder navigation - hdfs > user > CIFAA417
  4. Clique na guia Create directory ícone na barra de ferramentas Files para criar um diretório para armazenar esses dados no sistema de arquivos distribuído. Screen capture of the Create directory icon
  5. Nomeie seu diretório. Para este tutorial, nomeie como bi_sample_data. Você deve ter, portanto, a seguinte estrutura de diretório: hdfs/user/[userID]/bi_sample_data.

Agora você tem um diretório para armazenar todos os arquivos de dados de origem e os resultados de aplicativos. A seguir, você carregará os dados.

Carregar os dados

Há muitas maneiras de carregar dados no BigInsights. Mas este tutorial destina-se a manter isso simples usando a função nativa Upload no BigInsights, que é recomendado apenas para configurações de dados menores (menos de 2 GB). Para configurações de dados maiores, é possível usar o aplicativo Distributed File Copy. (Consulte o IBM Knowledge Center para mais informações sobre a importação de dados usando o aplicativo Distributed File Copy).

  1. Certifique-se de que você está na pasta bi_sample_directory.
  2. Na barra de ferramentas Files, clique no ícone Upload .
    Screen capture showing the Upload icon
    Screen capture showing the Upload icon

    Uma nova janela "Upload files" é aberta.

  3. Na janela "Upload files", clique em Choose file. Screen capture showing the Choose file button
  4. Navegue pelo seu sistema de arquivos local onde você salvou os arquivos blogs-data.txt e news-data.txt mais cedo no tutorial.
  5. Escolha blogs-data.txt e faça upload do arquivo.
  6. Repita o processo para escolher e fazer upload de news-data.txt.
  7. Quando ambos os arquivos estiverem na janela "Upload files", clique em OK.
  8. Navegue de volta para a pasta bi_sample_data para garantir que os arquivos estão lá. (Observação: é possível clicar no ícone Refresh na barra de ferramentas Files para atualizar a visualização.) Screen capture of bi_sample_data folder containing the blogs-data.txt and news-data.txt files
    Screen capture of bi_sample_data folder containing the blogs-data.txt and news-data.txt files

Se quiser dar uma olhada no que você acabou de carregar, clique em um dos arquivos blogs-data.txt ou news-data.txt. A janela à direita do diretório de arquivos exibe uma amostra rápida dos dados semiestruturados.

Screen capture of the blogs-data.txt files
Screen capture of the blogs-data.txt files

Conclusão

Você acabou de carregar os dados no BigInsights. No próximo tutorial nesta série, você terá domínio e fará sentido desses dados usando o aplicativo IBM BigSheets.


Recursos para download


Temas relacionados


Comentários

Acesse ou registre-se para adicionar e acompanhar os comentários.

static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=80
Zone=Cloud computing
ArticleID=991764
ArticleTitle=Analytics for Hadoop no Bluemix, Parte 3: Analytics for Hadoop no Bluemix: Carregar dados no InfoSphere BigInsights
publish-date=12052014