Big Data na nuvem

Velocidade, volume, variedade e veracidade dos dados

Big Data é um recurso inerente da nuvem e fornece oportunidades sem precedentes para usar analítica de negócios e informações de banco de dados estruturadas e tradicionais com rede social, dados de rede do sensor e multimídia muito menos estruturada. Aplicativos de Big Data requerem uma arquitetura centrada, em dados e muitas soluções incluem APIs baseadas na nuvem para fazer interface com pesquisas colunares avançadas, algoritmos de aprendizado de máquina e analítica avançada, como visão de computador, analítica de vídeo e ferramentas de visualização. Este artigo examina o uso da linguagem R e ferramentas similares para análise de Big Data e métodos para dimensionar serviços de Big Data na nuvem. Ele fornece uma visão aprofundada de gerenciamento de foto digital como um serviço de Big Data simples que emprega os principais elementos de pesquisa, analítica e aprendizado de máquina aplicados a dados não estruturados.

Sam B. Siewert, Assistant Professor, Universidade do Alaska em Anchorage

Sam Siewert photoDr. Sam Siewert é professor assistente no departamento de Ciência da Computação e Engenharia na Universidade do Alaska em Anchorage. Ele também é professor assistente adjunto na Universidade de Colorado em Boulder e leciona vários cursos do terceiro trimestre no departamento de Engenharia Elétrica, da Computação e de Energia. Como engenheiro de design de sistemas de computação, Siewert trabalha nos segmentos de mercado aeroespacial, de telecomunicações e armazenamento desde 1988. Seus interesses contínuos como pesquisador e consultor incluem sistemas escaláveis, visão de máquina e computador, arquitetura reconfigurável híbrida e sistemas operacionais. Interesses de pesquisa relacionados incluem teoria de tempo real, mídia digital e arquitetura fundamental de computador.



09/Jul/2013

Este artigo foca em aplicativos que usam Big Data e explica os conceitos fundamentais por trás da analítica de Big Data e como combinar isso com aplicativos de business intelligence (BI) e tecnologias paralelas, como computer vision (CV) e métodos de aprendizado por máquina cobertos na Parte 3 de Cloud scaling" (em inglês).

O que distingue analítica de Big Data de analítica de vídeo é a amplitude dos tipos de dados processados e a análise interativa e as ferramentas de pesquisa fornecidas em comparação, digamos, à mineração de dados ou aos métodos de MapReduce usados, que podem ser mais sofisticados, mas levam muito mais tempo para executar que Google BigQuery, por exemplo, que usa pesquisa colunas para compactar e acelerar pesquisas interativas para quantidades muito grandes de dados não estruturados. Na verdade, em "Visão An Inside View at Google BigQuery" (consulte Recursos), Google explica que em décimos de segundo, o BigQuery pode realizar combinação de texto regex em uma enorme tabela de log de cerca de 35 bilhões de linhas e 20 TB. A funcionalidade MapReduce da ferramenta leva muito mais tempo para executar, mas fornece redução de dados sofisticada.

Qualquer um com uma conta do Google pode usar BigQuery. Ou, para uma ideia mais rápida de pesquisa de Big Data típica, faça o download da minha foto e depois o seu upload para Google Images (US). Você deve obter todas as mesmas páginas com a minha foto (da IBM, da Universidade do Colorado Boulder, etc.), incluindo pelo menos um falso positivo. Usei este exemplo principalmente para garantir que as imagens das quais fiz download tivessem créditos de foto adequados e permissão concedida para reutilização. Junto com outros exemplos explorados aqui, este exemplo dá uma ideia do espírito do Big Data, encontrar uma agulha em um palheiro não estruturado de dados — na verdade, seria mais como milhões de palheiros.

Definindo Big Data

Big Data é amplamente definido como captura, gerenciamento e análise de dados que vão além de dados estruturados típicos, que podem ser consultados por sistemas de gerenciamento de banco de dados relacional — frequentemente para arquivos não estruturados, vídeo digital, imagens, dados de sensor, arquivos de log e, na verdade, qualquer dado não contido nos registros com campos pesquisáveis distintos. Em um certo sentido, os dados não estruturados são dados interessantes, mas difíceis de sintetizar em BI ou tirar conclusões deles, a menos que possam ser correlacionados a dados estruturados.

Big Data também tem novas origens, como geração de máquina (por exemplo, arquivos de log ou redes de sensor), dispositivos móveis (vídeo, fotografias e mensagens de texto) e máquina a máquina, em que a Internet das Coisas relata o status para fins de planejamento de manutenção para frotas de veículos ou aeronaves ou monitoramento de telemetria geral. Uma maneira de ver isso é pelas características de volume. A IBM estima que 2,5 quintilhões (2.500.000.000.000.000.000) de bytes de dados são criados agora a cada dia (consulte os Recursos). Segundo, a velocidade, em que as taxas de dados estão aumentando devido à largura de rede — normalmente a taxas de gigabit hoje (gigE, 10G, 40G, 100G) em comparação a taxas de megabit. Terceiro, a variedade, agora incluindo mais tipos de dados não estruturados, como fluxos de vídeo digital e dados de sensor, bem como arquivos de log. Por fim, a veracidade dos dados, ou quanto se pode confiar nos dados quando decisões importantes precisam ser tomadas com base em volumes tão grandes coletados a altas taxas. Simplesmente saber que os dados não são, na verdade, falsos, não foram corrompidos ou vêm de uma origem inesperada é difícil — poderiam vir, por exemplo, de uma de milhares de câmeras de segurança, cada uma produzindo muitos milhares de quadros de vídeo a cada hora. Assim, vamos traçar alguns dos principais aspectos de Big Data, aplicativos e sistemas para melhor entendê-los.

De onde o Big Data vem?

Big Data vem em grande quantidade devido aos avanços em dispositivos móveis, que agora incluem vídeo, fotografia e áudio digitais, além de recursos avançados de texto e email. Os usuários estão coletando dados em números nunca vistos há uma década; da mesma forma, novos aplicativos, como Google Translate, fornecem recursos de servidor de Big Data—tradução para o idioma natural para frases faladas ou digitadas em dispositivos móveis. A IBM vê Big Data como habilitados por dispositivos móveis primeiro no Global Technology Outlook para 2013 (consulte os Recursos) e caracteriza Big Data por volume, variedade, velocidadee veracidade. Os dados são naturalmente menos estruturados que registros de bancos de dados relacionais, mas podem ser correlacionados a tais dados. Este artigo fornece detalhes sobre o que constitui Big Data.

Talvez a melhor maneira de entender Big Data seja rever seu histórico, como a Forbes Magazine fez (consulte os Recursos). A escala do que foi considerado Big Data, é claro, aumentou para a taxa atual de mais de 2,5 exabytes por dia. O que é interessante é que a maioria dos dados nunca será revisada por olhos humanos (com apenas 7 bilhões de pessoas conforme o registro do censo dos EUA, precisaríamos cada um revisar mais de 300 MB de informações a cada dia). Dado esse desafio, a única maneira lógica de usar tantos dados é automação máquina a máquina ou consulta inteligente de Big Data. Além disso, se todos esses dados forem mantidos por longos períodos, como alguém sequer saberia se parte deles tivesse sido corrompida? É claro, podemos armazenar resumos de dados (como MD5, que é uma forma de soma de verificação) e usar redundant array of independent disks (RAID—espelhos, paridade XOR ou códigos de apagamento para detectar e recuperar dados corrompidos), mas é crescente a preocupação quanto a que alguns dados podem sofrer de corrompimento silencioso (consulte os Recursos).

A Internet Archive, uma curadora de dados, conduziu investigações com relação a essa preocupação. No geral, a veracidade de Big Data é um desafio, mas códigos de apagamento e métodos de resumo de dados avançados mostram-se promissores. Métodos tradicionais, como XOR RAID ou simples espelhamento — que fornecem apenas proteção contra falha única contra perda de dados quando dispositivos de armazenamento falham e não tratam de cenários de corrompimento sutis causados por erros de software, erros de operador de datacenter ou falha de mídia ao longo do tempo — estão sendo substituídos por RAID-6 e códigos de apagamento mais avançados. O conceito de durabilidade de dados para Big Data tornou-se importante, um tópico que eu pesquisei usando modelos matemáticos trabalhando com Intel e Amplidata. Com essa quantidade de dados, a ideia de humanos revisarem-nos quanto à veracidade é simplesmente impossível, e dados faltando podem não ser notados até que sejam, por fim, consultados ou acessados bem além no futuro.


Design de sistema de Big Data

Arquiteturas para proteção de dados em escala devem incluir proteção contra perda, corrompimento silencioso, malware e modificação maliciosa de dados por cibercriminosos ou cyberwarfare. Os dados são um ativo e cada vez mais usados por governos e empresas para a tomada de decisões importantes, mas se a veracidade dos dados for desconhecida, o valor dos dados reduz ou pode, até mesmo, ser perdido — ou ainda pior: más decisões podem ser tomadas. Este tópico vai além do escopo deste artigo, mas claramente a proteção contra perda e corrompimento ou modificação não detectada de dados é necessária.

Uma maneira de entender melhor Big Data é simplesmente olhar mais detalhadamente para alguns sites na nuvem que possuem dados suficientes (normalmente petabytes) junto com ferramentas de consulta (normalmente terabytes) para uso por aplicativos. A maioria de nós usa consultas do Google diariamente, mas o Google também fornece BigQuery, que usa pesquisa e armazenamento colunares mais sofisticados (discutidos em mais detalhes como um exemplo). Outros exemplos bem conhecidos são Facebook (rede social), Wikipédia (captura de conhecimento geral), o Internet Archive (curadores de dados digitais), DigitalGlobe (geographical information systems [GIS]), Microsoft® Virtual Earth (GIS), Google Earth (GIS) e vários novos provedores de serviço de Big Data.

As empresas também têm Big Data internos como em sistemas de nuvem privada. Muitos sistemas de Big Data são somente leitura para consulta do usuário (cm captura de origens geradas por máquina), mas provavelmente incluem forte autenticação se permitem atualizações a bancos de dados ou dados não estruturados, usando senhas, exigindo que os usuários autentiquem via códigos de confirmação por mensagem de texto para telefone celular, com o uso de desafios gráficos para verificar entrada de dados por humano e talvez usando autenticação biométrica mais no futuro.


Aplicativos de Big Data

Aplicativos eficientes para analítica de vídeo estão sendo pensados todos os dias para analítica de vídeo e CV, alguns talvez a anos da realização devido às exigências de computação ou ao custo de implementação. Contudo, aqui está uma lista de aplicativos interessantes:

  • Análise de percepção da bolsa de valores usar o Google Trends mostrou correlacionar-se bem com reduções e aumentos de índice históricos, o que talvez não seja surpreendente, mas interessante em termos de significância como um aplicativo de Big Data. O artigo "Quantifying Trading Behavior in Financial Markets Using Google Trends" (consulte os Recursos) fornece evidência de que o uso de análise de percepção para tomar decisões de compra e venda de curto e longo prazo para títulos de ação pode superar estratégias simples de comprar e reter e investimento em fundo de índice. Essa pesquisa, sem dúvida, requer mais análise, mas é instigante. Uma consideração interessante, porém, é o que acontecerá conforme esses sistemas de transação baseados em máquina ficarem online junto à transação programada existente.
  • Classificação de fotos Picasa do Google é uma ferramenta útil que permite aos usuários classificar, consultar e identificar rostos automaticamente usando técnicas de CV combinadas com aprendizado de máquina. Essa é uma ótima maneira de ter uma ideia do valor dos serviços e aplicativos de Big Data. Torna claro que a analítica de Big Data exigirá analítica avançada, como CV e métodos como visão de máquina.
  • Sistemas de recomendação como Pandora (música), Netflix (filmes) e Amazon (livros e produtos) usam dados do cliente e vários agentes em uma abordagem conhecida como filtragem colaborativa. Esse serviço de Big Data é o tópico de pesquisa muito avançada em aprendizado de máquina e mineração de dados. Claramente, a habilidade fazer boas recomendações pode aumentar as vendas e a satisfação do cliente.
  • Analítica de base de cliente pode fornecer análise de percepção para os clientes com base em dados de rede social (Facebook e Twitter, por exemplo) quando esses dados textuais são correlacionados a BI coletada de registros de transação de cliente tradicionais. Análise de percepção permite que uma empresa saiba o que os clientes pensam os produtos, o interesse que têm na concorrência, o que gostam e não gostam, etc.
  • Dados gerados por máquina de origens como redes de sensores (por exemplo, sensores integrados em sistemas grandes, como transporte urbano, semáforos e infraestrutura geral); dados máquina a máquina, pelos quais os dados de sensor ou log de uma máquina (normalmente no campo) são capturados por outra máquina; e arquivos de log, mais frequentemente usados pela TI para depurar problemas e gerenciar sistemas por exceção (ignorá-los a menos que precisem de atenção humana para recuperação e continuidade da operação).
  • Sistemas de reserva para viagens estão sendo aprimorados incorporando preferências do cliente, logística e histórico anterior para fazer sugestões úteis para aquela tarefa sempre árdua de planejar uma viagem.
  • Rede social para entretenimento está substituindo o aspecto social da televisão transmitida e discussão de filmes em grupos, em que a mídia digital sob demanda agora permite que qualquer um assista ao conteúdo praticamente a qualquer hora e em qualquer lugar, mas ainda compartilhe a experiência usando rede social. Embora isso torne o consumo do conteúdo mais agradável, também permite aos criadores, roteiristas e artistas a habilidade de realmente conhecer o público melhor do que nunca.
  • Diagnóstico médico frequentemente incluem decision support systems (DSSes) de especialista com base em regras, mas com Big Data, há evidências de que esses sistemas podem sair da pesquisa e tornarem-se assistentes médicos importantes. Por exemplo, um novo DSS para auxiliar com avaliação psicológica objetiva de pacientes em risco de suicídio mostrou-se promissor na pesquisa (consulte os Recursos). Parte de fornecer esses sistemas é compará-los com dados históricos: esses sistemas não substituirão a tomada de decisão humana, mas prometem aprimorá-la quando usados como uma ferramenta de suporte.

Essa não é, de modo algum, uma lista exaustiva de aplicativos de Big Data, mas é possível encontrar mais para explorar nos Recursos. Os aplicativos de consulta colunar, análise para dados não estruturados, MapReduce e visualização e raciocínio sobre Big Data estão apenas começando.

Big Data em proteção e segurança pública

A integração de analítica de Big Data com informações públicas (ou privadas, informações fornecidas voluntariamente confiadas a um administrador) podem permitir rápida pesquisa de grandes volumes de vídeo, voz, dados de sensor e texto de email para melhorar a segurança pública para recuperação de desastres, evitar ameaças terroristas e entender preocupações públicas. Poderíamos pensar nisso quase como um feedback comparado com a transmissão unidirecional para sistemas de aviso de emergência. É claro, há preocupação e um lado escuro na analítica de vídeo/voz/email e Big Data se tornarem-se invasão de privacidade. Tais sistemas requerem uso responsável, divulgação total e auditoria dos dados coletados em redes e lugares públicos.

Considerações de privacidade de aplicativo de Big Data

Se empresas, governos e organizações coletarem, analisarem e usarem cuidadosamente Big Data, o valor para o público será aparente. Se houver abuso das capacidades de analítica de Big Data, a confiança do público será perdida e o valor será perdido. Os sentimentos dos usuários devem ser oferecidos voluntariamente, e muito do valor vem de saber como as pessoas se sentem sobre aquilo com que estão interagindo, onde estão ou o que estão lendo. Se um sensor de leitura de mente for desenvolvido, podemos, de fato, ter um dilema ético. Por enquanto, o uso de câmeras, gravação de voz ou mineração de dados de email deve ser buscado com uma cuidadosa preocupação quanto à privacidade e de maneira a manter a confiança e a segurança do usuário.

Como um caso perfeito sobre o assunto, durante a redação deste artigo, a questão do banco de dados de metadados telefônicos da Agência de Segurança Nacional dos EUA, que pode ter dados minerados no caso de ameaças nacionais, causou preocupação significativa (consulte os Recursos). Obviamente, muitos dos detalhes serão definidos em casos de tribunal, mas consideração cuidadosa no design dos sistemas de Big Data sem dúvida poupa a dor de cabeça dos litígios.


Exemplo: usando script R

Kit de ferramentas do projeto R no InfoSphere Streams

O InfoSphere Streams é uma plataforma de computação avançada que permite a aplicativos desenvolvidos pelo usuário a captura, análise e correção de informações rapidamente conforme elas chegam de milhares de origens em tempo real, tratando taxas de saída de dados muito altas: até milhões de eventos ou mensagens por segundo. A Versão 3.1 inclui um Kit de Ferramentas de projeto R que permite aplicar algoritmos de mineração de dados complexos para detectar padrões de interesse em fluxos de dados. Saiba mais (US) e experimente (em inglês).

Analítica visual é o termo usado para descrever a visualização de Big Data (que não deve ser confundida com analítica de vídeo , a análise de sequências de imagens para entender o que elas contêm). A visualização historicamente é uma prática mais encontrada em computação de alto desempenho, mas com o crescimento de dados não estruturados de dispositivos móveis, redes sociais, sistemas máquina a máquina e dados gerados por rede de sensor, a necessidade de visualização avançada é crescente para Big Data. Simples gráficos de pizza, o princípio de Pareto, diagramas X-Y e gráficos de barras historicamente usados com frequência na tomada de decisão de negócios podem não ser suficientes para entender Big Data.

Para explorar isso, implementei as equações de Lorenz na linguagem de script C e R (uma ferramenta de análise de Big Data). O uso de C e Microsoft® Excel® para entender essas equações complexas é limitado, principalmente porque a modelagem e a análise não são integradas e planilhas normalmente não fornecem visualização complexa multidimensional. Com C e Excel, foi possível produzir gráficos de dispersão 2D das equações de Lorenz, que modelam convecção atmosférica, como mostra a Figura 1. Pode haver uma maneira melhor de visualizar esses dados com Excel, mas não havia uma maneira óbvia de explorar mais de duas dimensões.

Figura 1. Um gráfico de dispersão 2D de um modelo de Lorenz
Image shows a two-dimensional Lorenz plot

Analítica visual com R

Usando R, é possível importar um grande número de pacotes de analítica e visualização e usá-los com essa linguagem de script intuitiva. Por exemplo, para visualizar melhor as equações de Lorenz, importei o pacote scatterplot3d, como mostra a Figura 2, permitindo uma melhor visualização das equações de Lorenz inerentemente 3D em comparação com uma planilha simples. Também seria possível usar ferramentas de visualização científica como MATLAB ou mesmo gráfico GNU para esse tipo de análise baseada em modelo, mas R também inclui uma variedade de pacotes que são adequados à análise multidimensional de conjuntos de dados que não têm natureza científica, como visualização de BI, dos quais há muitos exemplos nos Recursos. O exemplo de Lorenz é uma introdução simples ao poder da R.

Figura 2. Importando um pacote de visualização para R para o Windows
Image showing an imported visualization package into R

De maneira muito semelhante a como o MATLAB fornece um ambiente de análise de engenharia e científico interativo para exploração de dados e modelo para engenheiros e cientistas, R fornece o mesmo para analistas de negócio e análise de Big Data de todos os tipos (veja a Figura 3 e a Listagem 1). Exploração interativa de Big Data com ferramentas como R e BigQuery é o que distingue análise de Big Data de análise mais orientada a lote e mineração de dados, que é frequentemente realizada usando MapReduce. De qualquer forma, o objetivo é formar novos modelos e dar suporte à tomada de decisão aproveitando o volume de Big Data.

Figura 3. Um gráfico 3D das equações de Lorenz
An image showing an R 3D plot of Lorenz equations
Lista 1. Script R de amostra para o diagrama da equação de Lorenz
library(scatterplot3d)
library(gdata)
getwd()
[1] "C:/Users/ssiewert/Documents"
mydata = read.csv("lorenz.csv")
scatterplot3d(mydata, highlight.3d=TRUE, col.axis="blue",
              col.grid="lightblue", main="Lorenz Equations", pch=20)

Para ajudá-lo a entender e explorar a visualização, o exemplo de Lorenz para C e Excel, bem como R, está disponível para download. Para explorar mais, é possível usar R para visualizar os dados retornados do Google BigQuery.


O futuro do Big Data

Este artigo argumenta o valor de Big Data, que foi questionado, especialmente quando a veracidade dos dados não pode ser confirmada, e fornece sugestões para melhoria da veracidade junto a conceitos para lidar com o volume, a variedade e a velocidade dos dados. A experiência até o momento mostra que aumento de escala, uso de métodos de durabilidade de dados avançados, incorporação de redes de alta taxa para clusters e algoritmos de aumento de escala como MapReduce e pesquisa colunar mostram-se promissores para lidar com eficiência com Big Data. Entretanto, problemas que não foram sequer considerados, como a distorção silenciosa dos dados, tornaram-se novas preocupações devido ao aumento no volume, na velocidade e na variedade de dados, anteriormente uma preocupação menor quando taxas de erro de bit para unidades de disco e redes eram muito menores que os bytes que passavam por elas ou eram armazenados nelas. O arquiteto de Big Data de hoje, portanto, precisa ser mais inteligente não apenas para proteger a veracidade e o valor dos dados, mas para projetar serviços que os tornem acessíveis e úteis agora que eles superam amplamente a capacidade humana de revisá-los diariamente.


Download

DescriçãoNomeTamanho
Scripted analytics examplesscript-examples.zip702KB

Recursos

Aprender

Obter produtos e tecnologias

Discutir

Comentários

developerWorks: Conecte-se

Los campos obligatorios están marcados con un asterisco (*).


Precisa de um ID IBM?
Esqueceu seu ID IBM?


Esqueceu sua senha?
Alterar sua senha

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


A primeira vez que você entrar no developerWorks, um perfil é criado para você. Informações no seu perfil (seu nome, país / região, e nome da empresa) é apresentado ao público e vai acompanhar qualquer conteúdo que você postar, a menos que você opte por esconder o nome da empresa. Você pode atualizar sua conta IBM a qualquer momento.

Todas as informações enviadas são seguras.

Elija su nombre para mostrar



Ao se conectar ao developerWorks pela primeira vez, é criado um perfil para você e é necessário selecionar um nome de exibição. O nome de exibição acompanhará o conteúdo que você postar no developerWorks.

Escolha um nome de exibição de 3 - 31 caracteres. Seu nome de exibição deve ser exclusivo na comunidade do developerWorks e não deve ser o seu endereço de email por motivo de privacidade.

Los campos obligatorios están marcados con un asterisco (*).

(Escolha um nome de exibição de 3 - 31 caracteres.)

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


Todas as informações enviadas são seguras.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=80
Zone=Cloud computing, Information Management
ArticleID=942484
ArticleTitle=Big Data na nuvem
publish-date=07092013