Conteúdo


Use a análise de big data e de dados rápidos para usufruir da análise como serviço (AaaS)

Principais plataformas analíticas na IBM SoftLayer Cloud

Comments

Há algum tempo, duas tendências dominaram o setor de TI. Uma é a otimização acelerada da infraestrutura de TI, suportada principalmente pelas tecnologias em nuvem. A outra é a necessidade de lidar com grandes quantias de dados, conhecidas como big data.

Atualmente, diversas inovações com potencial para abalar as estruturas estão ocorrendo em paralelo na área de TI. O ecossistema de dispositivos está presenciando um crescimento sem precedentes, alcançando bilhões de dispositivos eletrônicos conectados, conforme aumenta cada vez mais o número de implantáveis, rastreadores de fitness portáteis, dispositivos móveis e sistemas ciber-físicos (CPS). Os sistemas operacionais, transacionais e analíticos essenciais para os negócios estão ficando cada vez mais eficazes, e os sites sociais estão atraindo cada vez mais pessoas no mundo todo. Trilhões dos chamados "objetos inteligentes", incluindo cadeiras, sofás, mesas, camas e assim por diante, estão sendo digitalizados e ficando online, enquanto uma poderosa experimentação técnica e científica está sendo realizada como nunca antes na história.

Tradicionalmente, a análise tem sido aplicada principalmente a dados corporativos, com o objetivo de extrair insights de negócios. Hoje, o tamanho dos dados é excessivo e o escopo, a velocidade e a estrutura dos dados variam extremamente. O valor dos dados para um indivíduo, um inovador e uma instituição depende de uma análise inteligente e capaz de extrair insights.

Estão surgindo duas grandes disciplinas, análise de big data e análise de dados rápidos. Novas tecnologias, plataformas e ferramentas estão sendo oferecidas por fornecedores de produtos no mundo todo para oferecer suporte a essas disciplinas, de forma simplificada e aperfeiçoada.

Neste artigo, mostraremos como a análise de dados pode ser entregue como um serviço, usando a IBM SoftLayer Cloud para usuários no mundo todo, de forma financeiramente suportável e acelerada. Veremos como o IBM SoftLayer Cloud está usando análise de big data e de dados rápidos para atingir o objetivo de fornecer análise como serviço (AaaS).

A análise de big data está ultrapassando a posição de curiosidade intelectual e está começando a afetar as operações, as ofertas e as previsões de negócios. Deixando para trás a euforia inicial, a análise de big data logo se tornará um pilar central para todos os tipos de empresas.

Enquanto isso, a análise em tempo real apresenta-se como um requisito fundamental. Por exemplo, as indústrias precisam usar dados em tempo real, como dados de sensores, para detectar anormalidades na fábrica e no maquinário.

Análise de big data e de dados em tempo real em nuvens públicas

Anteriormente, a maioria dos projetos tradicionais de data warehousing e business intelligence (BI) envolvia a coleta, a purificação e a análise dos dados extraídos de sistemas locais essenciais para os negócios. Embora essa prática ultrapassada esteja sendo alterada, é pouco provável que a maioria das organizações tenha pressa em transferir seus sistemas ou dados essenciais (confidenciais dos clientes e corporativos) para ambientes de nuvem pública visando a análise. No entanto, as empresas estão adotando o modelo de nuvem para propósitos operacionais e transacionais de negócios.

Atualmente, o maior potencial para a computação em nuvem está no processamento dos dados que já existem nos centros em nuvem. Muitos websites, aplicativos e serviços funcionais passarão a ser baseados em nuvem cedo ou tarde. Na verdade, todos os tipos de ativos físicos serão perfeitamente integrados com serviços baseados em nuvem. Por exemplo, os sensores e atuadores térreos estão cada vez mais ligados a softwares baseados em nuvem. Esse tipo de desenvolvimento indica que a futura análise de dados florescerá em ambientes de nuvem.

Atualmente, as nuvens públicas fornecem nativamente muitos tipos de plataformas e ferramentas de análise de big data para acelerar a análise de dados a um custo financeiramente suportável. As tecnologias de otimização de WAN estão amadurecendo rapidamente para reduzir significativamente a latência de rede e ainda transmitir grandes quantias de dados de um sistema para outro, em nuvens distribuídas geograficamente. Esquemas de nuvens federadas, abertas, conectadas e interoperáveis estão surgindo e, em breve, está previsto o surgimento da internuvem usando padrões abertos e automações mais abrangentes.

Com a contínua adoção e articulação de novos recursos e competências, como computação, armazenamento e rede definidos por software, a análise de dados baseada em nuvem deverá expandir-se imensamente.

Filtrando dados e tornando-os anônimos em nuvens híbridas e públicas

Nos próximos anos, o valor das nuvens híbridas aumentará exponencialmente, porque um ambiente de TI combinado e com vários sites será o mais adequado para a maioria dos novos cenários. Para a questão da análise, um caso de uso de nuvem híbrida viável é filtrar as informações confidenciais dos conjuntos de dados logo após a captura desses dados e, em seguida, usar a nuvem pública para executar qualquer análise complexa nos dados restantes. Por exemplo, se o objetivo é analisar terabytes de dados médicos para identificar padrões gerais no setor de assistência médica, os detalhes de identidade dos pacientes individuais não são relevantes. Nesse caso, um filtro pode eliminar nomes, endereços, números de documentos, entre outras informações, antes de enviar os dados anônimos para o armazenamento de dados seguro em nuvem.

Os sistemas de software estão sendo continuamente modernizados e transferidos para ambientes em nuvem, principalmente para as nuvens públicas nas quais é possível se inscrever e que podem ser usadas como um serviço na web.

Outro desenvolvimento notável é que a variedade de sites sociais usados por pessoas no mundo todo está aumentando e entrando no fluxo de computação principal. O Facebook, por exemplo, gera pelo menos 8 terabytes de dados por dia. Da mesma forma, outros sites sociais produzem grandes quantias de dados pessoais, sociais e profissionais além de simples comentários, reclamações e propagandas. Esses dados poliestruturados têm um papel importante na formação do domínio de análise de dados.

Outras tendências notáveis incluem a transferência de sistemas operacionais, transacionais, comerciais e analíticos de nível corporativo para nuvens públicas. Por exemplo, a SalesForce (http://www.salesforce.com/what-is-salesforce/) é a primeira nuvem pública a fornecer CRM como um serviço. Assim, a maioria dos dados corporativos originam-se em nuvens públicas. Com as nuvens públicas projetadas para crescerem rapidamente, os dados em nuvem fornecem outra oportunidade para a análise de dados baseada em nuvem.

Análise contemporânea em nuvens híbridas

Com exceção da análise de negócios tradicional, as tendências discutidas acima exigem novos tipos de análises que possam gerenciar big data e dados em tempo real. Esses tipos de análise caem nas categorias de análise específica do domínio e agnóstica do domínio.

É importante realizar análises operacionais em todos os tipos de dados de elementos de infraestrutura de TI, como dispositivos, eletroeletrônicos, entre outros, para executar a manutenção preditiva. Em outras palavras, a análise preditiva de dados de dispositivo de rede depende da análise operacional.

Cada nicho de mercado tem sua análise de big data. Com diferentes velocidades de dados, as análises em tempo real e em fluxo certamente se tornarão obrigatórias. Aqui estão alguns parâmetros a serem considerados para determinar a adequação de ambientes de nuvem para a análise de dados:

  • Volume e velocidade de dados
  • Impactos nos recursos de computação, armazenamento e rede
  • Sigilo dos dados e requisitos de conformidade regulamentar
  • Escopo da análise
  • Tipos de ambientes

Aplicativos e plataformas de análise de dados da próxima geração em ambientes em nuvem

A análise de dados baseada em nuvem tem aumentado rapidamente buscando usufruir de todos os benefícios do paradigma de nuvem. Aqui está uma lista dos principais benefícios potenciais da transferência para a nuvem:

  • Agilidade e sustentabilidade financeira - O investimento de capital de uma infraestrutura de TI em grande escala não é necessário. Apenas use e pague.
  • Plataformas de dados grandes e rápidos - É rápido e fácil implementar e usar qualquer tipo de plataforma de big data (genérica ou específica, aberta ou de nível corporativo) para análise.
  • Plataformas Hadoop de ponta a ponta - Visualização, ingestão, processamento, mineração, análise de dados e tarefas de visualização de informações estão sendo executadas por essas plataformas.
  • Sistemas de gerenciamento de dados - Bancos de dados SQL, NoSQL e NewSQL paralelos, em cluster e distribuídos estão sendo disponibilizados nas nuvens.
  • Sistemas de data warehouse - Recentemente, estão sendo concretizados recursos de data warehouse como serviço (DWaaS).
  • Sites sociais, lojas de aplicativos móveis e aplicativos semelhantes - Aplicativos populares de mídia e rede social estão sendo executados em nuvens públicas.
  • Tecnologias de otimização de WAN - Surgem novos produtos e plataformas de otimização de WAN para transmitir dados com eficiência na infraestrutura da Internet.
  • Aplicativos de negócios em nuvens - Com os Enterprise Information Systems (EIS), os aplicativos empacotados essenciais para os negócios, como ERP, CMS, SCM, KM, entre outros, também estão sendo implementados em nuvens.
  • Integradores, brokers e orquestradores em nuvem - Estão disponíveis produtos e plataformas para interoperabilidade perfeita entre sistemas, serviços e dados diferentes e distribuídos.
  • Os sistemas operacionais, transacionais e analíticos estão sendo modernizados, migrados e hospedados em nuvens.
  • Dispositivos, sensores e outras máquinas estão sendo integradas a aplicativos nativos da nuvem, assim como aplicativos, serviços e dados.

Temos criados inúmeras provas de conceito (PoCs) para entender a análise de dados grandes e rápidos baseada em nuvem. (Observação: estes artigos estão em revisão no momento e após a publicação serão disponibilizados no IBM developerWorks.)

As seções a seguir descrevem as diversas plataformas, bancos de dados e ferramentas criadas para serem executadas na IBM SoftLayer Cloud visando simplificar e aperfeiçoar a análise como serviço, para clientes e consumidores no mundo todo.

Plataformas de análise de big data na IBM SoftLayer Cloud

Cada vez mais, os indivíduos, os inovadores e as instituições estão usufruindo da agilidade e da eficiência em custos que as infraestruturas em nuvem fornecem. Essa "nuvenficação" das infraestruturas de TI também oferece diversas outras vantagens.

A maioria dos desenvolvedores concorda que o Hadoop é o método mais importante para manipular big data de forma confidencial. Os níveis de maturidade e estabilidade das plataformas de análise de dados compatíveis com o Hadoop estão conduzindo as empresas para a análise de big data. As plataformas baseadas no Hadoop estão sendo continuamente transferidas para ambientes de nuvem, permitindo entregar a análise de big data com mais agilidade e flexibilidade.

Como observado anteriormente, a infraestrutura em nuvem está sendo posicionada como a mais apropriada possível para a análise de big data. Existem no mercado diversas implementações de software livre e de nível corporativo das especificações do Hadoop, incluindo Cloudera, Hortonworks e MapR. O IBM InfoSphere BigInsights, com o Apache Hadoop como base, é a implementação comercial mais completa do Hadoop.

Projetado especificamente para ambientes essenciais para os negócios, o Cloudera Enterprise inclui o Cloudera data hub (CDH), a plataforma de software livre baseada em Hadoop mais popular do mundo, além de ferramentas avançadas para gerenciamento de sistemas e dados. O Cloudera Enterprise inclui o Cloudera Manager para facilitar a implementação, o gerenciamento, o monitoramento e o diagnóstico de problemas com o cluster. O Cloudera é fundamental para operar clusters em grande escala.

Os ambientes de nuvem estão se tornando cada vez mais populares para as cargas de trabalho essenciais do Apache Hadoop, devido à flexibilidade e à elasticidade que eles apresentam. Com o Cloudera Director, é possível usufruir de todo o potencial do Hadoop na nuvem, sem comprometer-se.

A SoftLayer Cloud não apenas fornece recursos potencialmente ilimitados para clusters de cálculo de alto desempenho, como também facilita o gerenciamento com o Hadoop gerenciado pelo Cloudera.

Nós implementamos as plataformas Hortonworks e MapR Hadoop na SoftLayer Cloud. Uma solução baseada em nuvem típica é composta por componentes de armazenamento, processamento e gerenciamento implementados na SoftLayer Cloud, que fornece um ambiente extensível, elegante, eficiente e elástico para o processamento de dados. Outros benefícios incluem extrema flexibilidade, alto desempenho, agilidade e pagamento por utilização, eliminando custos futuros.

O IBM BigInsights, também disponível na SoftLayer Cloud, fornece os seguintes benefícios:

  • Acelera e simplifica a implementação em cluster - Usufrua da análise de Big Data sem precisar de uma infraestrutura local.
  • Dimensiona-se conforme a demanda dos negócios - Mantenha os custos com infraestrutura alinhados às necessidades comerciais em constante mudança.
  • Fornece ferramentas avançadas para reduzir o tempo de retorno - Extraia valor a partir de Big SQL, Big Sheets, analítica de texto, entre outros.
  • Otimiza o desempenho e aprimora a segurança - Experimente velocidade e confiabilidade com uma infraestrutura bare metal dedicada.
  • Oferece conhecimento e melhores práticas - Beneficie-se de uma equipe dedicada de operações em nuvem que implementa clusters com base nas melhores práticas.

Plataformas de análise em tempo real na IBM SoftLayer Cloud

A análise em tempo real de dados rápidos e de fluxo também pode ser feita com sucesso em ambientes de nuvem. Nesta seção, explicaremos como algumas plataformas foram modernizadas e migradas para o centro da IBM SoftLayer Cloud para ilustrar as preocupações, as mudanças e os desafios associados à análise em tempo real baseada em nuvem.

Agora que os dados estão sendo gerados e capturados em quantias sem precedentes, as plataformas e as infraestruturas de análise de dados tradicionais estão destinadas a enfrentarem uma variedade de restrições. São necessários algoritmos e soluções de TI completos e resilientes, para lidar com dados grandes e rápidos. Diversos fornecedores de produtos, tendo percebido os crescentes desafios, estão criando proativamente sistemas de análise de big data que permitem que dados capturados e consolidados sejam transformados em informações e conhecimento com facilidade.

Soluções para virtualização de dados, bancos de dados, warehouses, estatística de dados e cubos, business intelligence (BI) e visualização são fundamentais para o sucesso da extração e da engenharia de conhecimento. VoltDB é um sistema de gerenciamento de banco de dados relacional (RDBMS) dimensionável e de alto desempenho para big data, OLTP de alta velocidade e análise em tempo real. O VoltDB, que é um tipo de banco de dados NewSQL, é um banco de dados incrivelmente rápido projetado para ser executado em infraestruturas de computação modernas e dimensionáveis. Diferentemente dos produtos RDBMS anteriores e dos armazenamentos de dados NoSQL, o VoltDB permite que aplicativos de alta velocidade, sem precisar de camadas de definição de shards complexas e caras e sem comprometer a integridade dos dados transacionais (ACID), usufruam de alto desempenho e dimensionamento.

O VoltDB fornece:

  • Rendimento do banco de dados atingindo milhões de operações por segundo
  • Dimensionamento sob demanda
  • Alta disponibilidade, tolerância a falhas e durabilidade do banco de dados
  • Análise de dados em tempo real

O VoltDB é implementado na SoftLayer Cloud para demonstrar seus recursos em tempo real que produzem insights verdadeiramente acionáveis.

Além do tamanho e da estrutura dos dados, a velocidade dos dados também é muito importante. Estão surgindo novos casos de uso específicos em todos os nicho de mercado, exigindo a análise de dados rápidos. Os dados estão sendo atualizados, compactados e entregues como mensagens. As mensagens de dados e eventos estão apresentando-se como blocos de construção formalizados para serem recebidos, abertos, analisados e usados em uma variedade de análises mais detalhadas e mais decisivas. Os fluxos de dados (multimídia) e eventos de origens de dados mais novas como sensores, máquinas, sistemas operacionais, plataformas e assim por diante, precisam ser capturados e analisados sistematicamente em tempo real. Embora as nuvens estejam sendo posicionadas como a principal infraestrutura de TI otimizada, existem diversas plataformas de software livre e também de nível corporativo para automatizar o processo de análise em tempo real e de fluxo.

Apache Storm é uma plataforma de análise em tempo real desse tipo. Como um sistema de cálculo em tempo real distribuído, gratuito e de software livre, o Apache Storm facilita o processamento confiável de fluxos de dados ilimitados. Ele faz para o processamento em tempo real o que o Hadoop fazia para o processamento em lote. O Storm é simples e pode ser usado com qualquer linguagem de programação. Ele tem vários casos de uso: análise em tempo real, aprendizado de máquina online, cálculo contínuo, RPC, ETL distribuídos e muito mais.

O Apache Storm é rápido. Uma avaliação de desempenho mediu o Storm em mais de um milhão de tuplas processadas por segundo e nó. Ele é dimensionável, tolerante a falhas, garante que os dados sejam processados e é fácil de configurar e operar. O Storm integra-se às tecnologias de enfileiramento e banco de dados que a sua empresa já usa. Uma topologia do Storm consome fluxos de dados e processa esses fluxos de maneiras arbitrariamente complexas, reparticionando os fluxos entre cada estágio de cálculo, conforme a necessidade. Implementamos uma instância do Apache Storm na IBM SoftLayer Cloud e escolhemos um pequeno caso de uso para mostrar como o Storm baseado em nuvem funciona e como ele cumpre seus objetivos.

Análise de big data de alto desempenho na SoftLayer Cloud

Todo mundo concorda que no mundo atual o alto desempenho é fundamental. Em diferentes partes, têm sido expressas preocupações de que o ambiente de nuvem não garante o alto desempenho. Por esse motivo, é importante hospedar em nuvem plataformas de alto de desempenho que garantam o alto desempenho dos serviços e das cargas de trabalho hospedados em nuvem.

A análise de big data (BDA) está apontando como uma atividade de uso intenso de dados que requer uma infraestrutura de TI de ponta e plataformas integradas para simplificar e aperfeiçoar as tarefas geralmente relacionadas a qualquer análise de dados. Atualmente, existem diversas opções viáveis para realizar a análise de dados com eficiência, variando desde mainframes, clusters, grades e dispositivo até supercomputadores. As plataformas Hadoop são as mais procuradas para realizar análise com custo reduzido de enormes quantias de dados multiestruturados. A computação de alto desempenho (HPC) é o modelo de computação mais apropriado a ser adotado para abordar os desafios de infraestrutura lançados pela BDA.

Uma de nossas PoCs mostra como a solução de software Netezza pode ser movida sistematicamente para a IBM SoftLayer Cloud, configurada e usada para realizar análises em tempo real da próxima geração, com um baixo custo total de propriedade (TCP) e um alto retorno sobre investimento (RoI). Fornecemos todos os detalhes relevantes de um aplicativo de amostra que eleva a eficiência do Netezza baseado em nuvem, para cumprir os diversos requisitos da análise de dados de alto desempenho.

Análises de fluxo na IBM SoftLayer Cloud

A computação de fluxo integra e analisa dados em movimento continuamente, para entregar análises em tempo real. Ela ainda permite que as organizações detectem insights (riscos e oportunidades) em dados em alta velocidade que podem ser detectados e usados de imediato. Grande parte dos fluxos de dados em alta velocidade a partir de origens em tempo real, como dados de mercado, máquinas, smartphones, sensores e atuadores, fluxos de clique e até transações permanece inutilizada.

O IBM Cloud Analytics Application Services entrega clusters de alto desempenho para executar cargas de trabalho de big data e análise de nível corporativo, em uma infraestrutura bare metal dedicada, pré-instalada com softwares de big data líderes de mercado.

IBM InfoSphere Streams, o software suportado para esse tipo de análise em nuvem, é uma plataforma analítica avançada que permite que os aplicativos desenvolvidos pelo usuário recebam, analisem e correlacionem rapidamente as informações, conforme elas chegam a partir de milhares de origens em tempo real. Essa solução consegue lidar com taxas de rendimento de dados muito altas, até milhões de eventos ou mensagens por segundo.

Muitas organizações precisam processar uma grande quantia de dados em tempo real para realizar análises em tempo real, ETL ou para responder a eventos instantaneamente. A análise de fluxos de big data em tempo real está sendo apontada como uma nova necessidade para diversos nichos de mercado.

Nós implementamos o DataTorrent na IBM SoftLayer Cloud e verificamos como ele entrega análise de fluxo de big data conforme o prometido. O DataTorrent é uma plataforma de análise de software de nível corporativo que permite que as empresas executem qualquer tipo de processamento de dados ou transformações em dados estruturados ou não estruturados, tudo em tempo real, conforme o fluxo de dados é enviado ao datacenter. Usufruindo do Hadoop 2.0, o DataTorrent é uma plataforma de aplicativos nativa do YARN. Ele pode ser instalado diretamente em um cluster do Hadoop existente, conectar-se diretamente a todas as origens de dados recebidos em tempo real e executar qualquer tipo de processamento ou transformação dos dados na memória, à medida que o fluxo é recebido. O DataTorrent lida com todo o dimensionamento e a tolerância a falhas do sistema, permitindo que as empresas se concentrem na lógica de negócios.

O DataTorrent oferece suporte aos aplicativos de fluxo de big data mais exigentes e essenciais atualmente. Ele permite desenvolver rapidamente novos aplicativos que recebem enormes quantias de dados de várias origens em tempo real e executar cálculos altamente dimensionáveis, em tempo real. Com o DataTorrent, é possível usufruir do ambiente do Hadoop existente para um processamento de fluxo em tempo real. Usamos um aplicativo de amostra para mostrar aos leitores como os aplicativos de análise em tempo real baseados em nuvem podem ser implementados de maneira simplificada.

Plataforma de análise de big data de ponta a ponta na IBM SoftLayer Cloud

Em geral, as plataformas Hadoop executam pré-processamento, processamento e análise para descoberta do conhecimento. Mas uma plataforma de análise de big data de ponta a ponta envolve módulos de coleta, virtualização, ingestão, análise e visualização de dados. Com apenas um clique, tudo é realizado rapidamente e com segurança.

Datameer é uma plataforma desse tipo. Desenvolvido especificamente para o Hadoop, o Datameer permite que os dados brutos sejam transformados em novos insights com a maior rapidez possível. Sua missão é eliminar a complexidade das tarefas associadas à análise de big data e possibilitar que todos na empresa tomem decisões orientadas por dados em minutos, não em meses. Cientistas de dados e inúmeras ferramentas técnicas não são mais necessários para modelar, integrar, purificar, preparar, analisar e visualizar dados. O Datameer é um completo centro de serviços para enviar todos os dados ao Hadoop, analisar esses dados, descobrir o conhecimento e visualizar os insights extraídos em um formato escolhido. O Datameer lida com todos os tipos de dados, a partir de diversas origens, como ilustra a Figura 2 abaixo. Ele foi instalado com sucesso no ambiente da IBM SoftLayer Cloud e testado com um aplicativo de amostra para demonstrar seus recursos exclusivos.

Bancos de dados na IBM SoftLayer Cloud

Cálculo versátil na memória, bancos de dados NoSQL e NewSQL, sistemas de arquivos paralelos, entre outros, são soluções de TI importantes que devem ser hospedadas e executadas em nuvens elásticas.

Bancos de dados NoSQL

Vamos analisar estes bancos de dados NoSQL:

  • HBase
  • Apache Cassandra
  • Aerospike

HBase é um sistema de gerenciamento de banco de dados orientado por coluna, executado com base no Hadoop distributed file system (HDFS). Como banco de dados NoSQL, o HBase é adequado para conjuntos de dados esparsos. Diferentemente do SQL, ele não oferece suporte à Linguagem de Consulta Estruturada. Um sistema HBase é composto por um conjunto de tabelas, e cada tabela deve ter um elemento definido como uma chave primária. Todas as tentativas de acesso às tabelas do HBase devem usar essa chave primária. Uma coluna do HBase representa um atributo de um objeto e permite que vários atributos sejam agrupados nas chamadas famílias de colunas. Com o HBase, deve-se predefinir o esquema de tabela e especificar as famílias de colunas. No entanto, o HBase é muito flexível, pois novas colunas podem ser incluídas nas famílias a qualquer momento, permitindo que o esquema se adapte aos requisitos de aplicativos em constante mudança.

O HBase faz parte de qualquer distribuição padrão do Hadoop e foi instalado na IBM SoftLayer Cloud. Existem alguns cenários de uso nos quais a análise de big data (BDA) é realizada com sucesso com a ajuda de um banco de dados HBase baseado em nuvem.

Existem vários outros bancos de dados NoSQL de ponta e competentes no mercado. O Facebook Cassandra e o Google BigTable, por exemplo, são sistemas de gerenciamento de banco de dados populares transferidos para ambientes de nuvem.

O banco de dados Apache Cassandra é uma excelente opção para a necessidade de escalabilidade e alta disponibilidade, sem comprometer o desempenho. A escalabilidade linear e a comprovada tolerância a falhas em hardwares de baixo custo ou na infraestrutura em nuvem fazem dele a plataforma perfeita para lidar com os dados essenciais para os negócios. O suporte do Cassandra para replicação entre vários datacenters é o melhor da categoria, fornecendo baixa latência aos usuários e a tranquilidade de saber que a empresa permanecerá ativa durante ocasionais indisponibilidades regionais.

O modelo de dados do Cassandra oferece a facilidade dos índices de coluna com o desempenho das atualizações estruturadas em logs, um sólido suporte para desnormalização e visualizações materializadas, além de um eficiente armazenamento em cache integrado. Esse modelo de dados também foi implementado na IBM SoftLayer Cloud.

O Basho Riak é outro banco de dados NoSQL disponibilizado na SoftLayer Cloud. Outros bancos de dados conhecidos, como o MongoDB, também estão sendo levados para a nuvem.

Aerospike é um banco de dados NoSQL distribuído, de software livre, otimizado para indexação e armazenamento de dados baseados em SSD na memória. O Aerospike é um moderno banco de dados desenvolvido do zero para ampliar os limites da memória flash, dos processadores e das redes. Ele foi projetado para operar com baixa latência previsível com confiabilidade de alto rendimento sem comprometimento. Ele realmente simplifica as cargas de trabalho dos desenvolvedores, eliminando a necessidade de incorporar a lógica para definição de shards e para mudanças no cluster. Essa solução de banco de dados inovadora também elimina a preocupação com perda de dados e tempo de inatividade.

O Aerospike é ideal para aplicativos de big data em tempo real ou orientados pelo contexto que precisam detectar e responder de imediato. Ele opera na velocidade da memória e em escala global com confiabilidade de nível corporativo. Servidores Aerospike idênticos dimensionam-se formando um cluster sem compartilhamento, que particiona os dados com transparência e paraleliza o processamento em todos os nós. Os nós no cluster são idênticos: é possível começar com dois e ir incluindo mais hardware. O cluster é dimensionado de forma linear.

Nós migramos uma instância do banco de dados Aerospike para o ambiente da IBM SoftLayer Cloud e a configuramos para entregar conforme o prometido.

Bancos de dados MySQL na IBM SoftLayer Cloud

ScaleBase fornece elasticidade, escalabilidade e alta disponibilidade contínua a bancos de dados e aplicativos MySQL em ambientes de nuvem pública, particular e híbrida. O ScaleBase permite o dimensionamento transparente e instantaneamente do MySQL,, usufruindo da eficiência de servidores menores e mais baratos, em conjunto. A distribuição de dados baseada em política (definição de shards automatizada), desenvolvida com o ScaleBase Analysis Genie, e o balanceamento de carga inteligente com divisão de leitura/gravação com reconhecimento de replicação permitem o aumento da carga e do rendimento operacional. Eles também possibilitam um melhor desempenho do aplicativo e protegem contra picos de uso e aumentos de carga variados.

O ScaleBase automatiza o failover e o failback assegurando a continuidade de negócios e a proteção contra indisponibilidades inesperadas e esperadas. Ele também simplifica diferentes tarefas de manutenção contínuas, como upgrades de software e hardware, tudo sem causar impactos na disponibilidade do aplicativo ou do banco de dados. A capacidade de migrar um aplicativo a partir de um ambiente hospedado com um único banco de dados cada vez maior para um ambiente virtualizado com nós de dados menores e mais gerenciáveis, fornece às empresas a agilidade, a flexibilidade e a competitividade que elas precisam.

O ScaleBase foi desenvolvido especialmente para implementação em nuvem. Ele pode ser executado em nuvens particulares e também está disponível em nuvens públicas. Nós já executamos as formalidades iniciais para preparar e migrar a solução ScaleBase para a nuvem pública IBM SoftLayer. Fizemos todas as mudanças necessárias na configuração e criamos um pequeno aplicativo de amostra para executar e verificar como o ScaleBase funciona em um ambiente de nuvem online, remoto e sob demanda. Essas etapas formam uma parte importante da nossa estratégia de potencializar ofertas de nuvem pública para aplicativos com uso de dados e processamento intensos

Bancos de dados NewSQL na IBM SoftLayer Cloud

Basicamente, o NewSQL combina os melhores recursos dos dois mundos: ele mantém a integridade transacional dos sistemas de bancos de dados tradicionais e ainda fornece o desempenho dimensionável de ponta dos sistemas NoSQL. Essa combinação de desempenho e dimensionamento é crucial em ambientes com processamento intenso de transações. Os sistemas de dados baseados em NoSQL encontram-se em uma onda de sucesso com a promessa de escalabilidade. Os bancos de dados NewSQL buscam ultrapassar o NoSQL com o valor agregado da integridade transacional de alta velocidade.

O VoltDB (descrito anteriormente neste artigo) é um banco de dados NewSQL que foi implementado com sucesso na IBM SoftLayer Cloud e submetido a uma variedade de testes de pequena escala. Outros bancos de dados NewSQL populares como o Clustrix e o NuoDB estão ganhando mercado rapidamente. Eles são facilmente hospedados e entregues como um serviço em ambientes de nuvem.

Banco de dados como serviço (DBaaS)

Espera-se que os aplicativos atuais gerenciem uma variedade de dados estruturados e não estruturados, acessados por enormes redes de usuários, dispositivos, locais de negócios e até mesmo sensores, veículos e mercadorias ativadas para Internet. Empresas de todos os tamanhos, desde startups até megausuários como a Samsung, a Hothead Games e a Fidelity Investments usam o Cloudant para gerenciar dados de grandes aplicativos da web e móveis de rápido crescimento em e-commerce, educação online, jogos, serviços financeiros e outros setores.

IBM Cloudant é adequado para aplicativos que precisam de um banco de dados para manipular uma enorme combinação simultânea de leituras e gravações de baixa latência. Sua tecnologia de replicação e sincronização de dados também permite a contínua disponibilidade de dados, além do uso de aplicativos offline por usuários móveis ou remotos. Em uma organização grande, uma instância do DBMS pode demorar semanas para ser provisionada para um novo projeto de desenvolvimento, o que limita a inovação e a agilidade. O DBaaS permite o provisionamento instantâneo da camada de dados, possibilitando que um novo desenvolvimento seja iniciado a qualquer momento.

Diferentemente dos bancos de dados "faça você mesmo" (DIY), as soluções DBaaS, como o Cloudant, fornecem e garantem um nível específico de desempenho da camada de dados e de tempo de atividade. Isso elimina o risco de falha na entrega do serviço para o cliente e para o projeto. O banco de dados como serviço (DBaaS) Cloudant é a primeira plataforma de gerenciamento de dados que aproveita a disponibilidade, a elasticidade e o alcance da nuvem para criar uma rede de entrega de dados (DDN) global que permite que os aplicativos sejam dimensionados e permaneçam disponíveis aos usuários onde quer que eles estejam.

Data warehouse como serviço (DWaaS) na IBM SoftLayer Cloud

IBM dashDB é um serviço de data warehousing totalmente gerenciado na nuvem que coloca uma verdadeira usina geradora de análises ao seu alcance. O IBM dashDB permite romper as limitações da infraestrutura quando os negócios exigem que isso seja feito. O IBM dashDB pode ajudar a ampliar a infraestrutura existente na nuvem ou ajudar a iniciar novos recursos de autoatendimento de data warehousing. Ele foi desenvolvido com a tecnologia de alto desempenho na memória e no banco de dados, que entrega respostas com uma rapidez maior do que se possa imaginar. O IBM dashDB fornece a simplicidade de um dispositivo com a elasticidade e a agilidade da nuvem para organizações de qualquer tamanho. Ele foi projetado para atender às expectativas de segurança corporativa, o que pode oferecer acesso instantâneo a insights de negócios essenciais, sem um pesado investimento em infraestrutura. É possível carregar, analisar e visualizar dados em minutos. Com o IBM dashDB, o dia de fornecer data warehouse como serviço chegou.

IBM Watson Analytics na SoftLayer Cloud

IBM Watson Analytics é um serviço cognitivo que fornece recursos de processamento de linguagem natural e acesso instantâneo a ferramentas de análise preditiva e visual para empresas. Ele facilita a análise avançada e preditiva para qualquer pessoa que o adquirir e usar. O Watson Analytics oferece autoatendimento de análise, incluindo o acesso a serviços de data warehousing e refinamento de dados fáceis de usar. Esses recursos facilitam a aquisição e a preparação de dados para usuários corporativos, além de simples planilhas para análise e visualização.

O IBM Watson Analytics automatiza etapas como preparação de dados, análise preditiva e narração visual para profissionais de negócios em áreas com uso intenso de dados, como marketing, vendas, operações, finanças e recursos humanos. A IBM SoftLayer está integrando os IBM Power Systems mais recentes em sua infraestrutura em nuvem para atender às necessidades de infraestrutura da computação de alto desempenho, com custo reduzido. O sistema IBM Watson será executado com eficiência nos IBM Power Systems. Em breve, o Watson Analytics ficará disponível como um serviço na IBM SoftLayer Cloud.

Análise como serviço conteinerizada na IBM SoftLayer Cloud

O conceito de conteinerização para empacotar e implementar aplicativos essenciais está chamando a atenção igualmente de desenvolvedores e administradores. O empacotamento de todos os tipos de módulo de software juntamente com seus arquivos binários, suas bibliotecas e seus detalhes de configuração, além de outras dependências em um único pacote é uma maneira de assegurar uma implementação mais rápida e livre de erros das cargas de trabalho de software. Essa ideia pragmática foi difundida e, atualmente, todos os tipos de aplicativos móveis, em nuvem, sociais, integrados, de middleware, de banco de dados, corporativos e de IoT estão sendo conteinerizados de forma metódica.

A criação de ambiente de simulação, uma técnica sutil e de isolamento inteligente, elimina as restrições causadas pela dependência de sistemas operacionais subjacentes. Esses aplicativos em ambientes de simulação e em contêineres abrangentes e compactos são a solução ideal para atender às necessidades de portabilidade, extensibilidade, sustentabilidade, versatilidade e segurança.

Conforme a tecnologia Docker foi amadurecendo, surgiu um novo paradigma de "contêineres como serviço (CaaS)". Os contêineres estão sendo preparados, hospedados e entregues como um serviço na web pública. Todos os procedimentos necessários para entregar contêineres como serviço, com reconhecimento de aplicativo, estão sendo configurados em contêineres para prepará-los para a futura era dos serviços. Isso significa que contêineres preenchidos com conhecimento, orientados a serviços, baseados em nuvem, compostos e cognitivos estão sendo oferecidos como os principais ingredientes para o estabelecimento e a sustentação da visão de Planeta Mais Inteligente. Os aplicativos são conteinerizados e expostos como serviços a serem descobertos e usados por uma variedade de consumidores em uma gama cada vez maior de casos de uso. A análise de dados grandes e rápidos por meio do Hadoop e do Apache Storm, do Spark, entre outros, está amadurecendo e estabilizando-se rapidamente. As máquinas virtuais (VMs) estão sendo usadas amplamente para permitir o uso do Hadoop como serviço. Em breve, os contêineres terão os ambientes de nuvem como destino.

A integração do Hadoop YARN com o Docker permitirá que diversos clusters usem os mesmos recursos de hardware. Nós submetemos os contêineres do YARN às etapas de "Dockerização" e hospedamos esses contêineres na IBM SoftLayer Cloud. Assim, criamos um exemplo para mostrar como as plataformas de cargas de trabalho e análise de big data conteinerizadas garantem uma eficiência maior. A nova oferta de análise como serviço conteinerizada com o IBM SoftLayer Cloud está prestes a ser lançada.

Conclusão

Os dados tornaram-se um ativo estratégico para qualquer organização, e é importante que cada organização faça um planejamento cuidadoso, antes de continuar com sua estratégia de dados. Para garantir o sucesso contínuo, as empresas orientadas por dados precisarão superar todos os tipos de mudanças e desafios inesperados nos negócios.

Para extrair insights acionáveis, cada empresa deve submeter sistematicamente todos os dados coletados a partir de origens distintas e distribuídas a uma série de processos de análise detalhados ativados por TI, com a ajuda de plataformas de ponta a ponta.

Neste artigo, explicamos como a IBM SoftLayer pode ajudar a extrair insights acionáveis a partir de big data, em tempo real. Usando a análise como serviço na nuvem com a infraestrutura aberta, pública e barata da Internet, é possível criar uma solução de TI otimizada, organizada e muito capaz.


Recursos para download


Tema relacionado


Comentários

Acesse ou registre-se para adicionar e acompanhar os comentários.

static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=80
Zone=Cloud computing, Internet of Things
ArticleID=1026268
ArticleTitle=Use a análise de big data e de dados rápidos para usufruir da análise como serviço (AaaS)
publish-date=01222016