Arquitetura e Padrões de Big Data, Parte 1: Introdução à Classificação e à Arquitetura de Big Data

Como classificar o Big Data em categorias

Os problemas com Big Data são, geralmente, difíceis de serem analisados e solucionados. O volume absoluto, a velocidade e a variedade dos dados dificultam a extração das informações e dos insights de negócios. Uma primeira etapa adequada é classificar o problema do Big Data de acordo com o formato dos dados a serem processados, o tipo de análise a ser aplicada, as técnicas de processamento usadas e as fontes de dados para os dados que o sistema alvo deve adquirir, carregar, processar, analisar e armazenar.

Divakar Mysore, Senior IT Architect, IBM

Divakar MysoreDivakar Mysore é senior IT architect certificado pela IBM, com mais de 15 anos de experiência no setor de TI. Ele fez parte de diversas iniciativas estratégicas para empresas globais. Tem ampla experiência como arquiteto empresarial, arquiteto de aplicativos, engenheiro de sistemas, modelador de dados e arquiteto de testes. Ele lidera a disciplina de arquitetura do aplicativo para a equipe de Arquitetura empresarial e tecnologia em Global Delivery, na Índia. Ele estimula iniciativas de vitalidade para dispositivos móveis, front office, social e Big Data.



Shrikant Khupat, Application Architect, IBM

Shrikant Khupat Shrikant Khupat é application architect na IBM. Ele tem experiência na definição de arquiteturas empresariais, distribuídas, desconectadas e de cliente/servidor, além de projetos. Além disso, também tem experiência em diversas áreas, como seguros e energia e utilidade pública. Ele trabalhou em soluções complexas envolvendo o processamento de dados distribuídos por meio do uso do Apache Hadoop e o processamento de dados não estruturados utilizando idiomas de aprendizagem automática. Seus interesses atuais incluem definir a arquitetura e os padrões de Big Data.



Shweta Jain , IT Architect, IBM

Shweta Jain Shweta Jain é IT architect acreditada no IBM AIS Global Delivery com mais de dez anos de experiência no setor. Ela é especializada em criar arquiteturas de soluções de integração baseadas em SOA usando padrões e estruturas do setor. Tem experiência na arquitetura, no projeto, na implementação e no teste de soluções de integração baseadas na estrutura de SOA, na metodologia SOMA e no ciclo de vida do desenvolvimento de software com base em métodos. Como integration architect, ela é responsável por criar a arquitetura da camada BPM/EAI usando ferramentas, padrões, processos e metodologias da IBM, além de incorporar os padrões do setor para projetos de integração e transformação complexos. Ela também desfruta ler sobre e contribuir com as tecnologias mais recentes, como Big Data.



25/Abr/2014

Visão geral

Há muitas maneiras de armazenar, adquirir, processar e analisar big data. Cada fonte de big data tem características diferentes, incluindo frequência, volume, velocidade, tipo e veracidade dos dados. Quando big data são processados e armazenados, outras dimensões vêm à tona, como governança, segurança e políticas. Escolher uma arquitetura e construir uma solução apropriada de big data é um desafio, pois é preciso considerar muitos fatores.

Esta série "Arquitetura e padrões de big data" apresenta uma abordagem estruturada, com base em padrões, para simplificar a definição de uma arquitetura geral de big data. Como é importante avaliar se um cenário de negócios é um problema de big data, nós incluímos ponteiros para ajudar a determinar quais problemas de negócios são bons candidatos para soluções de big data.


De classificação de big data à escolha de uma solução de big data

Experimente as soluções de big data da IBM

Faça download de uma versão de teste de uma solução de big data da IBM e veja como ela funciona no seu ambiente. Escolha dentre vários produtos:

Se você já investigou soluções de big data, sabe que não é uma tarefa simples. Esta série mostra como encontrar uma solução de big data adequada para suas necessidades.

Nós começamos examinando os tipos de dados que o termo "big data" descreve. Para simplificar a complexidade dos tipos de big data, nós classificamos essa categoria de acordo com vários parâmetros e fornecemos uma arquitetura lógica para as camadas e os componentes de alto nível envolvidos em qualquer solução de big data. Em seguida, propomos uma estrutura para classificar problemas de negócios de big data definindo padrões de classificação atômicos e compostos. Esses padrões ajudam a determinar o padrão de solução apropriado para aplicação. Incluímos exemplos de problemas de negócios de vários segmentos de mercado. Por fim, para cada componente e padrão, nós apresentamos os produtos que oferecem a função relevante.

A Parte 1 explica como classificar big data. Os demais artigos desta série tratam dos seguintes tópicos:

  • Definindo uma arquitetura lógica das camadas e dos componentes de uma solução de big data
  • Entendendo padrões atômicos de soluções de big data
  • Entendendo padrões compostos (ou mistos) para usar em soluções de big data
  • Escolhendo um padrão para uma solução de big data
  • Determinando a viabilidade de um problema de negócios para uma solução de big data
  • Selecionando os produtos certos para implementar uma solução de big data

Classificando problemas de negócios de acordo com o tipo de big data

É possível categorizar problemas de negócios em tipos de problemas de big data. Mais adiante, usaremos esse tipo para determinar o padrão apropriado de classificação (atômico ou composto) e a solução de big data apropriada. Mas o primeiro passo é mapear o problema de negócios para o tipo de big data. A tabela a seguir contém problemas comuns de negócios e atribui um tipo de big data a cada um.

Tablela 1. Problemas de negócios de big data por tipo
Problemas de negóciosTipo de big dataDescrição
Serviços públicos: Prever o consumo de energiaDados gerados por máquina

Concessionárias de serviços públicos implementaram medidores inteligentes para medir o consumo de água, gás e eletricidade a intervalos regulares de uma hora ou menos. Esses medidores inteligentes geram enormes volumes de dados de intervalo que precisam ser analisados.

As concessionárias também operam sistemas grandes, caros e complicados para gerar energia. Cada rede contém sensores sofisticados que monitoram voltagem, corrente, frequência e outras características operacionais importantes.

Para ter eficiência operacional, a empresa precisa monitorar os dados entregues pelo sensor. Uma solução de big data pode analisar dados de geração de energia (fornecimento) e de consumo de energia (demanda) usando medidores inteligentes.

Telecomunicações: Analítica de perda de clientesDados da web e sociais

Dados de transação

Operadores de telecomunicações precisam criar modelos detalhados de perda de clientes que incluam dados de mídias sociais e de transação, como CDRs, para estar à frente da concorrência.

O valor dos modelos de perda de clientes depende da qualidade dos atributos (dados principais do cliente, como data de nascimento, sexo, local e renda) e do comportamento social dos clientes.

Provedores de telecomunicações que implementam uma estratégia de analítica preditiva podem gerenciar e prever a perda analisando os padrões de chamada dos assinantes.

Marketing: Análise de sentimentoDados da web e sociais

Departamentos de marketing usam feeds do Twitter para realizar análise de sentimento e determinar o que os usuários estão falando sobre a empresa e seus produtos ou serviços, especialmente após o lançamento de um novo produto ou release.

O sentimento do cliente deve ser integrado aos dados de perfil do cliente para derivar resultados significativos. O feedback do cliente pode variar de acordo com seus aspectos demográficos.

Atendimento ao cliente: Monitoramento de chamadaGerado por humanos

Departamentos de TI estão usando soluções de big data para analisar logs de aplicativo e obter insight que possa melhorar o desempenho do sistema. Arquivos de log de diferentes fornecedores de aplicativos estão em formatos diferentes e precisam ser padronizados para uso pelos departamentos de TI.

Varejo: Sistema de mensagens personalizado com base em reconhecimento facial e mídia social Dados da web e sociais

Biométrica

Varejistas podem usar tecnologia de reconhecimento facial combinada a uma foto da mídia social para fazer ofertas personalizadas a clientes com base no comportamento de compra e na localização.

Esse recurso pode ter um impacto tremendo nos programas de fidelização dos varejistas, mas há sérias considerações sobre a privacidade. Os varejistas precisariam ser transparentes com relação à privacidade para implementar esses aplicativos.

Varejo e marketing: Dados de dispositivos móveis e direcionamento com base em localizaçãoDados gerados por máquina

Dados de transação

Varejistas podem atingir seu público-alvo com promoções específicas e cupons com base em dados de localização. As soluções são geralmente projetadas para detectar a localização de um usuário ao entrar em uma loja ou através de um GPS.

Dados de localização combinados a dados de preferência do cliente obtidos em redes sociais permitem que os varejistas direcionem campanhas de marketing online e nas lojas com base no histórico de compras. As notificações são entregues por meio de aplicativos remotos, SMS e email.

FSS, assistência médica: Detecção de fraudeDados gerados por máquina

Dados de transação

Gerados por humano

A capacidade de gerenciamento de fraudes prevê a probabilidade de fraude em uma dada transação ou conta do cliente. Soluções analisam transações em tempo real e geram recomendações para ação imediata, o que é essencial para impedir fraudes de terceiros, fraudes pela própria pessoa e mau uso deliberado de privilégios de conta.

As soluções são projetadas geralmente para detectar e evitar diversos tipos de fraude e risco em vários segmentos de mercado, incluindo:

  • Fraude em cartões de crédito e débito
  • Fraude em contas de depósito
  • Fraude técnica
  • Dívida em aberto
  • Fraude em assistência médica
  • Fraude em Medicaid e Medicare
  • Fraude em seguro de propriedade e de vida
  • Fraude em seguro-desemprego
  • Fraude em seguros
  • Fraude em telecomunicações

Quando problemas de big data são categorizados por tipo, é mais fácil ver as características de cada tipo de dados. Essas características ajudam a entender como os dados são obtidos, como são processados para o formato apropriado e com que frequência novos dados estão disponíveis. Dados de diferentes fontes possuem características diferentes; por exemplo, dados de mídia social podem ter vídeos, imagens e texto não estruturado, como postagens de blog, entrando continuamente.

Nós avaliamos dados de acordo com essas características comuns, das quais tratamos na seção a seguir:

  • O formato do conteúdo
  • O tipo de dados (dados de transação, históricos e principais, por exemplo)
  • A frequência de disponibilização dos dados
  • A intenção: como é preciso formatar os dados (consulta ad hoc nos dados, por exemplo)
  • Se o processamento deve ocorrer em tempo real, quase em tempo real ou em modo de lote.

Usando os tipos de big data para classificar suas características

É útil examinar as características de big data seguindo certas linhas — por exemplo, como os dados são coletados, analisados e processados. Após a classificação dos dados, é possível associá-los com o padrão apropriado de big data:

  • Tipo de análise — Se os dados são analisados em tempo real ou agrupados para análise posterior. Pense bastante antes de escolher o tipo de análise, pois isso afeta várias outras decisões sobre produtos, ferramentas, hardware, fontes de dados e a frequência estimada dos dados. Para alguns casos de uso é necessária uma mistura dos dois tipos:
    • detecção de fraude; a análise deve ser feita em tempo real ou quase.
    • Análise de tendência para decisões estratégicas de negócios; análise pode ser feita em modo de lote.
  • Metodologia de processamento — O tipo de técnica a ser aplicada para processar dados (por exemplo, preditiva, analítica, consulta ad hoc e relatórios). As necessidades de negócios determinam a metodologia de processamento apropriada. É possível usar uma combinação de técnicas. A escolha de metodologia de processamento ajuda a identificar as ferramentas e técnicas apropriadas para uso na solução de big data.
  • Frequência e tamanho dos dados — O volume estimado de dados e a frequência com que chegam. Saber a frequência e o tamanho ajuda a determinar o mecanismo de armazenamento, formato de armazenamento e as ferramentas necessárias de pré-processamento. Frequência e tamanho de dados dependem das fontes:
    • Sob demanda, como dados de mídia social
    • Feed contínuo, em tempo real (dados de clima ou transacionais)
    • Série temporal (dados com base em tempo)
  • Tipo de dados— Tipo dos dados a serem processados — transacionais, históricos, principais e outros. Saber o tipo de dados ajuda a segregar os dados no armazenamento.
  • Formato de conteúdo — Formato dos dados recebidos — estruturados (RDMBS, por exemplo), não estruturados (áudio, vídeo e imagens, por exemplo) ou semiestruturados. O formato determina como os dados recebidos precisam ser processados e é essencial para escolher ferramentas e técnicas e definir uma solução de uma perspectiva de negócios.
  • Fonte de dados— Fontes de dados (onde os dados são gerados) — web e mídia social, gerados por máquina, gerados por humanos, etc. Identificar todas as fontes de dados ajuda a determinar o escopo de uma perspectiva de negócios. A figura mostra as fontes de dados mais usadas.
  • Consumidores de dados — Uma lista de todos os possíveis consumidores dos dados processados:
    • Processos de negócios
    • Usuários corporativos
    • Aplicativos corporativos
    • Pessoas individuais em várias funções de negócios
    • Parte dos fluxos do processo
    • Outros repositórios de dados ou aplicativos corporativos
  • Hardware— O tipo de hardware no qual a solução de big data será implementada — hardware barato ou de ponta. Entender as limitações do hardware ajuda na escolha da solução big data.

Figura 1 mostra as várias categorias para classificar big data. As principais categorias para definir padrões de dados de big data foram identificadas e destacadas em azul listrado. Padrões de big data, definidos no próximo artigo, derivam de uma combinação dessas categorias.

Figura 1. Classificação de big data

Conclusão e agradecimentos

No restante desta série, descreveremos a arquitetura lógica e as camadas de uma solução de big data, do acesso ao consumo de big data. Incluiremos uma lista abrangente de fontes de dados e apresentaremos padrões atômicos com foco em cada um dos aspectos importantes de uma solução de big data. Trataremos de padrões compostos e explicaremos como padrões atômicos podem ser combinados para solucionar casos particulares de uso de big data. Concluiremos a série com alguns padrões de solução que associam casos de uso muito usados a produtos.

Os autores gostariam de agradecer Rakesh R. Shinde por sua orientação em definir a estrutura geral da série e por ler e fazer comentários valiosos.

Recursos

Aprender

  • Explore cursos grátis de Universidade Big Data em tópicos que vão de fundamentos do Hadoop e fundamentos de analítica de texto a acesso de SQL para Hadoop e stream computing em tempo real.
  • Confira o Big Data Hub para ver links populares, como "Os quatro Vs de big data" e "Cinco principais casos de uso de big data".
  • Leia o blog de James Kobelius, para ver o que o divulgador de Big Data tem a dizer sobre assuntos como as qualificações certas para o profissional de big data da próxima geração, no lugar certo e no momento certo.
  • Visite o blog de Swanie Tolentino para ter a perspectiva de uma gerente do segmento de mercado e de marketing de soluções sobre programas de fidelização e a tênue linha entre bisbilhotar e facilitar as compras.
  • Olhe por cima do ombro de Michael Brulé, lendo os pensamentos dele sobre otimização de operações de óleo e gás para metas específicas de negócios e para tornar decisões de negócios competitivas nesse setor.
  • No blog de Graeme Noseworthy, veja um profissional de marketing em uma missão para demonstrar a capacidade de soluções de big data, como IBM PureData e a plataforma de big data da IBM, para colaboração e para proporcionar experiências mais inteligentes para o cliente.
  • No blog de Bob Palmer, saiba como big data promete alcançar valor significativo e mensurável de negócios para o setor financeiro.
  • Confira o blog Business Analytics 3.0: Analytics as a service para ver artigos como "Predictive analytics and wearable computing = personalized big data" e "Goldman Sachs: Big data is a disruptive theme."
  • Leia o white paper da McKinsey & Company Big data: The next frontier for innovation, competition, and productivity para saber como big data afeta líderes em cada setor.
  • Saiba mais sobre big data na área de big data do developerWorks. Localize documentação técnica, artigos de instruções, educação, downloads, informações do produto e mais.
  • Encontre recursos para ajudá-lo a começar com o InfoSphere BigInsights, a oferta baseada em Hadoop da IBM que estende o valor de Hadoop de software livre com recursos como Big SQL, analítica de texto e BigSheets.
  • Siga estes tutoriais de autoaprendizado (PDF) para saber como gerenciar seu ambiente de big data, importar dados para análise, analisar dados com BigSheets, desenvolver seu primeiro aplicativo de big data, desenvolver consultas Big SQL para analisar big data e criar um extrator para derivar insights de documentos de texto com o InfoSphere BigInsights.
  • Encontre recursos para ajudá-lo a começar com o InfoSphere Streams, a plataforma de computação de alto desempenho da IBM que habilita aplicativos desenvolvidos pelo usuário para capturar, analisar e correlacionar informações rapidamente conforme elas chegam de milhares de origens em tempo real.
  • Atualize-se com os eventos técnicos e webcasts do developerWorks.
  • Siga o developerWorks no Twitter.

Obter produtos e tecnologias

Discutir

Comentários

developerWorks: Conecte-se

Los campos obligatorios están marcados con un asterisco (*).


Precisa de um ID IBM?
Esqueceu seu ID IBM?


Esqueceu sua senha?
Alterar sua senha

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


A primeira vez que você entrar no developerWorks, um perfil é criado para você. Informações no seu perfil (seu nome, país / região, e nome da empresa) é apresentado ao público e vai acompanhar qualquer conteúdo que você postar, a menos que você opte por esconder o nome da empresa. Você pode atualizar sua conta IBM a qualquer momento.

Todas as informações enviadas são seguras.

Elija su nombre para mostrar



Ao se conectar ao developerWorks pela primeira vez, é criado um perfil para você e é necessário selecionar um nome de exibição. O nome de exibição acompanhará o conteúdo que você postar no developerWorks.

Escolha um nome de exibição de 3 - 31 caracteres. Seu nome de exibição deve ser exclusivo na comunidade do developerWorks e não deve ser o seu endereço de email por motivo de privacidade.

Los campos obligatorios están marcados con un asterisco (*).

(Escolha um nome de exibição de 3 - 31 caracteres.)

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


Todas as informações enviadas são seguras.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=80
Zone=Information Management
ArticleID=950973
ArticleTitle=Arquitetura e Padrões de Big Data, Parte 1: Introdução à Classificação e à Arquitetura de Big Data
publish-date=04252014