Conteúdo


Extraia insights de big data com o Datameer na IBM SoftLayer

Como os aplicativos analíticos pré-construídos podem mudar a sua vida

Comments

Analise e virtualize dados com o Datameer

O Datameer permite integrar com facilidade todos os dados no Hadoop. Trata-se de uma plataforma de ponta a ponta que elimina a complexidade das tarefas de análise de big data. É possível tomar decisões orientadas por dados em minutos, não em meses. O Datameer é um completo centro de serviços para colocar todos os dados no Hadoop, analisar esses dados e visualizar os insights no formato de sua preferência.

O Datameer Analytics App Market é o primeiro mercado de aplicativos analíticos pré-construídos que permitem simplesmente inserir seus dados para exibir os resultados finais graficamente. Não precisa ser desenvolvido.

Se você tem dados enormes coletados em fontes distribuídas, diferentes estruturas, um escopo em crescimento e uma velocidade variada, o Datameer pode ajudá-lo a alcançar a "virtualização" de dados. Se os seus dados estão na nuvem, em bancos de dados anteriores e em planilhas na área de trabalho, o Hadoop é útil, mas não é suficiente para compreender os dados distribuídos. Agora, com o Datameer, é possível integrar todos os dados no Hadoop de um modo tão fácil quanto seguir um assistente. Com conectores integrados a todas as fontes comuns de dados estruturados e não estruturados, a integração de big data é aperfeiçoada. Você simplesmente indica no Datameer:

  • Quais dados levar ao Hadoop e como
  • Se é uma importação única ou em fluxo, conforme novos dados são incluídos
  • Importar segundo um determinado planejamento

Analítica

Com o Datameer, a análise de big data é tão simples quanto usar uma planilha. Para criar uma análise, use o assistente para:

  • Selecionar com quais dados deseja trabalhar em uma planilha
  • Escolher entre mais de 250 funções analíticas pré-construídas
  • Usar análise iterativa de apontar e clicar, na velocidade do pensamento, com a tecnologia Smart Sampling do Datameer

O Datameer é ligado a várias plataformas Hadoop como Cloudera, Hortonworks e MapR. O Datameer usa o IBM BigInsights®, que é uma implementação dependente e pronta para uso corporativo do Apache Hadoop. O Datameer e o Cloudera juntos fornecem uma solução completa para análise de big data. Com o hub de dados em escala corporativa do Cloudera, é possível centralizar e armazenar com custo reduzido todos os dados com suas fidelidades originais no Hadoop. Qualquer plataforma de análise de big data dentro dos padrões pode ser perfeitamente conectada à plataforma Datameer.

Visualização

As ferramentas de análise de dados ajudam a revelar insights práticos que podem ser apresentados no formato preferencial do usuário. O WYSIWYG Business Infographic do Datameer, empacotado com o Designer, fornece visualizações de arrastar e soltar, independentemente do tipo, do tamanho ou da origem de dados. Você começa com uma tela HTML5 em branco para projetar relatórios no estilo infográfico que serão atualizados automaticamente sempre que os dados forem atualizados. É possível importar uma imagem, integrar um vídeo, escrever textos em formato livre e customizar infinitamente. Graças ao HTML5, as visualizações podem ser exibidas em qualquer dispositivo.

Requisitos do sistema

O hardware recomendado para um ambiente de produção inclui:

  • Servidor 1U
  • 2 CPUs quad core
  • 8 GB de RAM ou mais
  • 2 unidades de disco rígido de 1 TB (o espaço em disco disponível recomendado é de 250 GB)
  • RAID - 0 de distribuição
  • RAID - 1 de espelhamento
  • Energia redundante
  • O failover requer um servidor de espera com a mesma configuração

Tablela 1 mostra os sistemas operacionais compatíveis com o Datameer.

Tablela 1. Sistemas operacionais compatíveis com o Datameer
Sistema OperacionalVersãoComentários
Ubuntu 1010.04 LTSMySQL 5.1.41
Ubuntu 1212.04 LTSMySQL 5.5
Debian 5 (Lenny)5.0.5MySQL 5.1.47
Solaris 1010MySQL 5.1.30
Red Hat Enterprise Linux (RHEL)5.5, 6.xMySQL 5.0.77
Fedora13
14
MySQL 5.1.48
MySQL 5.1.60
CentOS5.5
6.x
MySQL 5.0.77
MySQL 5.1.61
Scientific Linux6.1MySQL 5.1.52

Provisionando um servidor CentOS na IBM SoftLayer

Para provisionar as máquinas virtuais na nuvem da SoftLayer, use os seguintes detalhes de IP:

  • IP público: 158.85.184.55
  • IP do servidor: 10.122.153.190
  • Nome do servidor: datameerpoc.softlayer.com
  • Endereço: 10.122.153.190 / 158.85.184.55
  • Usuário: root / xxxxx

Instalando o Datameer

  1. Faça download do Datameer no website do Datameer.
  2. Arraste o arquivo datameer_apache_1.0.3-4.5.0-1.noarch.rpm para a VM em um diretório, usando o WinSCP ou o FillZilla.
  3. Copie o software Datameer para o diretório usr/local, como é mostrado em Figura 1, em seguida, forneça as permissões necessárias, inserindo o comando a seguir:
    chmod -R 777 datameer_apache_1.0.3-4.5.0-1.noarch.rpm
    Figura 1. Configure as permissões de arquivo
    command in listing 1 on VM screen
    command in listing 1 on VM screen
  4. Na linha de comandos da VM, exporte o pacote, inserindo o comando a seguir:
    export INSTALL_LOCATION=/usr/local
  5. Antes de instalar o Datameer, verifique se a linguagem de programação Java™ está instalada, inserindo java -version .
  6. Se a linguagem Java não estiver instalada, instale-a inserindo o comando a seguir:
    sudo yum install java-1.7.0-openjdk-devel

    Uma mensagem indica qual versão da linguagem Java foi instalada juntamente com as dependências instaladas, como é mostrado em Figura 2.

    Figura 2. Mensagem de instalação bem-sucedida da linguagem Java
    Java, dependencies installed
    Java, dependencies installed
    Java, dependencies installed
    Java, dependencies installed

    Após a instalação da linguagem Java, será possível iniciar a instalação do Datameer.

  7. Expanda o archive inserindo o comando a seguir:
    rpm2cpio datameer_apache_1.0.3-4.5.0-1.noarch.rpm | cpio -idmv

    Os arquivos no archive são listados, como é mostrado em Figura 3.

    Figura 3. Archive expandido
    directory listing
    directory listing

    Atualize o caminho do diretório.

Inicie o servidor de aplicativos Datameer

Para iniciar o servidor de aplicativos Datameer:

  1. Alterne para o Datameer inserindo os comandos em Lista 1.
    Lista 1. Alterne para o usuário do Datameer e inicie o servidor
    su – datameer
    cd /usr/local/Datameer-trial-5.0.1-apache-1.0.3
    cd bin
    ./conductor.sh start
  2. Depois de iniciar o servidor do Datameer, abra uma sessão do navegador com a URL http://158.85.184.55:8080, que mostrará o contrato de software do Datameer, como é mostrado em Figura 4.

    Selecione Eu concordo com os termos de licença, em seguida, clique em Continuar.

    Figura 4. Contrato de software
    text of software agreement
    text of software agreement
  3. O Painel do Datameer deverá ser exibido, como é mostrado em Figura 5, contendo as guias Página inicial, Navegador, App Market e Administração.

    No lado esquerdo do painel do Datameer, as opções são Filtro, Administração, Análise, Dados, Exemplos, Imagens, Usuários e Visualização.

    Selecione Administração à esquerda da janela.

    Figura 5. Tela de boas-vindas
    tutorials to load, analyze, visualize data
    tutorials to load, analyze, visualize data

Faça upload do arquivo CSV no servidor Datameer

Para iniciar o upload do arquivo CSV, clique na guia Navegador, clique no ícone + como é mostrado em Figura 6 e, em seguida, selecione Dados > Upload de arquivo.

Figura 6. Ícone para incluir itens
Icon at upper left above Filter heading
Icon at upper left above Filter heading
  1. Na janela Novo upload de arquivo, como é mostrado em Figura 7, clique em Browse. No campo Tipo de arquivo , selecione CSV/TSV para usar nosso arquivo de exemplo e clique em Avançar.
    Figura 7. Especificar tipo de arquivo
    specify file type from pulldown
    specify file type from pulldown
  2. Figura 8 mostra a guia Definir campos do nosso exemplo. A equipe do Datameer forneceu os dados no aplicativo de amostra. O arquivo mostra as idades de pessoas em diferentes cidades.
    Figura 8. Definir campos
    define fields, rescan schema
    define fields, rescan schema
  3. Na página Detalhes dos dados, é possível inserir os nomes Delimitador, Esquema e Coluna da guia Detalhes dos dados, como é mostrado em Figura 9. Neste artigo, mantivemos os dados padrão porque ainda não há esquemas do cliente aqui.
    Figura 9. Detalhes dos dados
    set delimiter/schema/ignore lines, Data Details tab
    set delimiter/schema/ignore lines, Data Details tab
  4. Para tamanho da amostra, deixe o campo Registros de amostra 5000 na guia Amostra, como é mostrado em Figura 10, em seguida, clique em Avançar.
    Figura 10. Amostra
    set sample record size, Sample tab
    set sample record size, Sample tab
  5. Forneça uma descrição dos dados, como é mostrado em Figura 11, em seguida, clique em Save.
    Figura 11. Save
    describe data, Save tab
    describe data, Save tab
  6. Figura 12 mostra que o arquivo foi carregado com sucesso na ferramenta. Selecione Descartar registro, deixe os outros campos como estão e clique em Avançar.
    Figura 12. Itens temporários
    placeholders, how to handle invalid data
    placeholders, how to handle invalid data
  7. O arquivo transferido por upload deve aparecer na guia Dados. Especifique o nome do arquivo e clique em Save. Como é mostrado em Figura 13, todos os arquivos salvos são exibidos.
    Figura 13. Arquivos salvos
    Saved files
    Saved files
  8. Clique duas vezes no arquivo salvo (FileUpload em Figura 13) para ver o status atual, como é mostrado em Figura 14.
    Figura 14. Status atual do arquivo
    last execution, records, preview, total data
    last execution, records, preview, total data
  9. Clique em Vincular dados em uma nova planilha e em Procurar dados para ver os resultados, como é mostrado em Figura 15.
    Figura 15. Resultados
    numbered columns with name/age/city
    numbered columns with name/age/city
  10. Clique em Fazer download para ver a árvore de decisão, mostrada em Figura 16.
    Figura 16. Árvore de decisão
    create decision tree sheet
    create decision tree sheet
  11. Clique na guia Vincular dados em uma nova planilha em Figura 14 para ver suas opções para trabalhar com os dados de exemplos, mostrados em Figura 17.
    Figura 17. Opções para análise
    option icons to use smart analytics
    option icons to use smart analytics
  12. Selecione o ícone Planilha de árvore de decisão, destacado na caixa vermelha em Figura 17, para acessar a janela Configurações mostrada em Figura 18. Aqui é possível criar as planilhas ou as configurações desejadas. Em seguida, arraste as colunas e solte-as na caixa de configuração.
    Figura 18. Configurações
    Data and simple, or Advanced settings
    Data and simple, or Advanced settings
  13. Clique em Criar planilha para ver a saída, como é mostrada em Figura 19.
    Figura 19. Planilha
    Name/age/city/prediction columns
    Name/age/city/prediction columns
  14. Selecione na opção da barra de ferramentas, destacada na vermelha em Figura 20, para criar uma Planilha de armazenamento em cluster, uma Planilha de árvore de decisão, uma Planilha de recomendação, uma Planilha de dependências de coluna ou uma Planilha flip. (Nosso exemplo fornece apenas uma planilha de amostra como uma introdução ao software.)
    Figura 20. Selecionar planilhas
    icons for types of sheets
    icons for types of sheets
  15. Os dados carregados serão armazenados na pasta Análise, em Planilhas, como é mostrado em Figura 21. Para ver os dados, selecione a guia Página inicial, em seguida, selecione Analytics.
    Figura 21. Dados armazenados
    SkyTestData file highlighted/type .wbk/status ?
    SkyTestData file highlighted/type .wbk/status ?

Analisando os dados

Para começar a analisar os dados:

  1. No Datameer, clique na guia App Market, como é mostrado em Figura 22.
    Figura 22. App Market
    latest/top/installed/My apps choices
    latest/top/installed/My apps choices
  2. Selecione e instale o LinkedIn Pro Network. Clique em Autorizar o Datameer a recuperar dados, como é mostrado em Figura 23. Serão solicitadas as autenticações do seu perfil do LinkedIn.
    Figura 23. Instalar LinkedIn Pro Network
    Provide OAuth token info
    Provide OAuth token info

    Depois de fornecer os detalhes relevantes, clique em OK quando solicitado. Depois de efetuar login no LinkedIn Pro Network, clique em Salvar e executar, como é mostrado em Figura 24.

    Figura 24. Salvar e executar
    example token info, highlighted Save/Run button
    example token info, highlighted Save/Run button
  3. Figura 25 mostra a primeira tela do LinkedIn Pro Network e se as conexões foram bem-sucedidas.
    Figura 25. LinkedIn Pro Network
    App ready, results available
    App ready, results available
  4. Espere até que os dados sejam totalmente carregados e, em seguida, clique em Abrir infográfico para ver as telas estáticas do LinkedIn, como é mostrado em Figura 26. O LinkedIn classificou e visualizou os dados. Por exemplo, é possível ver quantos amigos estão no seu perfil do LinkedIn, quantos amigos existem em comum, em que lugar do mundo eles estão e assim por diante.
    Figura 26. Estatísticas do Linkedin
    people/companies network, top industries
    people/companies network, top industries

    Figura 27 mostra as localizações dos seus amigos no mundo todo.

    Figura 27. Estatísticas do Linkedin
    US job locations/countries/job durations
    US job locations/countries/job durations

Exemplos

Esta seção demonstra um exemplo do Datameer App Market.

Clique na guia App Market (mostrada em Figura 22), em seguida, instale o aplicativo Tutorial Email Word. O aplicativo recupera dados do perfil do LinkedIn e filtra informações como, os horários em que você está conetado, quantas vezes você usa o programa, entre outras.

O tempo necessário para carregar o aplicativo varia com base na velocidade da rede. Quando aparecer Instalar tutorial Email Word Complexity, clicar em Executar.Figura 28 mostra o progresso da instalação.

Figura 28. Iniciando o tutorial Email Word Complexity
retrieving data/analyzing, hadoop emails checked
retrieving data/analyzing, hadoop emails checked

Para ver todos os dados carregados no aplicativo, os símbolos de marca de seleção devem estar em verde, como é mostrado em Figura 29.

Figura 29. Todos os dados transferidos por upload
data/hadoop emails, analytics/email analytics
data/hadoop emails, analytics/email analytics

Clique em Abrir infográfico para ver a visualização do conteúdo de email, como é mostrado em Figura 30.

Figura 30. Infográfico
word used together, top words by time of day
word used together, top words by time of day

Para incluir dados e vinculá-los entre si:

  1. Clique na guia Navegador (mostrada em Figura 22).
  2. Clique no ícone + no canto superior esquerdo da janela.
  3. Selecione Analytics > Planilha.

    Deve aparecer a janela Incluir dados, como é mostrado em Figura 31.

  4. Selecione Usuários > Administração > Aplicativos > Recursos e, em seguida, clique em Incluir dados.
Figura 31. Incluir dados
add preview of data to the workbook
add preview of data to the workbook

Na guia Simples, selecione as partições a serem mostradas e faça download dos dados particionados, como é mostrado em Figura 32, em seguida, clique em Selecionar todos.

Figura 32. Filtrar por partições
click section on graph to choose data
click section on graph to choose data

Os dados são carregados, como é mostrado em Figura 33. As colunas são preenchidas por ponto de vista de negócios. Os dados do usuário podem ser mostrados de ano em ano, mês em mês, dia por dia e de hora em hora.

Figura 33. Exemplos de dados
columns of data
columns of data

Incluir mais dados

Inclua mais dados, retornando à janela Incluir dados. Selecione Recursos > Cliente ..., em seguida, clique em Incluir dados, como é mostrado em Figura 34.

Figura 34. Incluir dados
select resources, Customer file, click Add Data
select resources, Customer file, click Add Data

Como é mostrado em Figura 35, deve aparecer uma lista de IDs, Usuários, Emails e assim por diante.

Figura 35. Novos dados
columns for ID/User/Email/Role/Activated/purchase
columns for ID/User/Email/Role/Activated/purchase

Aqui é possível associar duas planilhas de dados diferentes. Clique em Associar planilhas na barra de ferramentas para criar uma planilha associada, como é mostrado em Figura 36.

Figura 36. Selecionar planilha e coluna
select sheet, column. drag col to define join
select sheet, column. drag col to define join

Como é mostrado em Figura 37, selecione remoteUser > Usuário > Clickstream_Data > Customer_Profile/User, em seguida, clique em Criar planilha associada.

Figura 37. Criar planilha associada
new sheet contains data from two or more sheets
new sheet contains data from two or more sheets

Figura 38 mostra a planilha de dados combinada.

Figura 38. Planilha de dados combinada
data from 2 sheets based on a key column
data from 2 sheets based on a key column

Agora que duas planilhas foram associadas, clique em Incluir planilha adicional a partir da planilha atual. Deve aparecer a janela Criador de fórmula. Selecione a primeira coluna, chamada Grupo, destacada na caixa vermelha em Figura 39. Selecione Agrupando e na GROUPBY, em seguida, clique em OK.

Figura 39. Criador de fórmula
select function, create formulas, enter arguments
select function, create formulas, enter arguments

Selecione a segunda coluna e repita as etapas anteriores para ver os dados em Figura 40. A segunda coluna é baseada nos objetos selecionados na primeira coluna. (A segunda coluna exibirá os atributos relacionados aos objetos da primeira coluna.)

Figura 40. Dados de visitantes
visitors, status, traffic, impress...
visitors, status, traffic, impress...

Para filtrar os dados, clique em Aplicar filtro. Selecione as condições e, em seguida, clique em Create, como é mostrado em Figura 41.

Figura 41. Aplicar filtro à planilha
result contains only record matching conditions
result contains only record matching conditions

Para salvar os dados, clique em Save na barra de ferramentas, forneça um nome do arquivo e, em seguida, em Save novamente, como é mostrado em Figura 42.

Figura 42. Salvar planilha
saves workbook in specified folder
saves workbook in specified folder

Todos os dados salvos são armazenados na pasta Planilhas, como é mostrado em Figura 43.

Figura 43. Dados salvos
Sky New Testdata file in Analytics/Workbooks
Sky New Testdata file in Analytics/Workbooks

Visualize os dados graficamente

Para visualizar as informações, clique no ícone + na parte superior esquerda da janela e selecione Visualização > Infográfico. Deve aparecer a janela mostrada em Figura 44.

Figura 44. Arquivos salvos

Arraste o widget de gráfico de pizza para a tela. Arraste o arquivo de dados no gráfico de pizza para ver os resultados mostrados em Figura 45.

Figura 45. Infográfico
pie chart ABCDE, column data
pie chart ABCDE, column data

Clique em Save na barra de ferramentas e, em seguida, clique em Save na janela. Figura 46 e Figura 47 exibem os itens selecionados.

Figura 46. Visualize os dados graficamente
save infographic
save infographic

Em Figura 47 é possível selecionar Navegador.

Figura 47. Selecionar navegador
save infographic
save infographic

Administração

Caso seja necessário iniciar o aplicativo novamente, insirabin/conductor.sh start.

Para parar o aplicativo, insira bin/conductor.sh stop.

Conclusão

Existem diversas plataformas e ferramentas que ajudam a extrair grandes insights de big data, mas é fundamental usar uma plataforma de ponta a ponta para acelerar o processamento analítico. O Datameer está sendo considerado a plataforma de análise de big data da próxima geração para ambientes locais e remotos. É possível minimizar muitas das complexidades associadas à análise de big data com o Datameer baseado em nuvem. Usando um aplicativo de amostra, este artigo mostrou como migrar o Datameer para a nuvem IBM SoftLayer e configurá-lo para otimizar o desempenho.


Recursos para download


Temas relacionados


Comentários

Acesse ou registre-se para adicionar e acompanhar os comentários.

static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=80
Zone=Big data e análise de dados, Cloud computing
ArticleID=1026229
ArticleTitle=Extraia insights de big data com o Datameer na IBM SoftLayer
publish-date=01262016