Análise Preditiva Ágil no IBM SmartCloud Enterprise

Saiba como explorar o futuro utilizando padrões de dados passados a partir da nuvem

Empresas em todo o mundo enfrentam um bombardeio de dados (por isso, é chamado de "Big Data") que se torna cada vez maior e mais complexo — para extrair valor e insight dela, as organizações estão recorrendo à análise preditiva. As empresas podem explorar o futuro por meio do uso de técnicas estatísticas que podem descobrir importantes padrões presentes em dados passados, permitindo decisões de negócios mais precisas e consistentes. No entanto, a fim de se beneficiar totalmente de soluções big data, deve haver uma infraestrutura para a implementação e execução ágeis. Enquanto um padrão aberto, como a Predictive Model Markup Language (PMML), permite a movimentação instantânea de soluções entre ambientes de desenvolvimento e operacional (conhecidos coletivamente como DevOps), a computação em nuvem e o Software como Serviço oferecem a eficiência e a flexibilidade necessárias para colocá-las em funcionamento. Neste artigo, o autor apresenta os conceitos da análise preditiva ágil na nuvem, fornece algumas informações sobre a PMML e oferece um exemplo real de uma ferramenta que integra esses elementos sob um controle único.

Alex Guazzelli, VP of Analytics, Zementis, Inc.

Photo of Alex GuazzelliO Dr. Alex Guazzelli é VP of Analytics na Zementis Inc., onde é responsável pelo desenvolvimento das principais tecnologias e soluções preditivas sob a denominação ADAPA, uma plataforma de tomada de decisão baseada na PMML. Com mais de 20 anos de experiência em análise preditiva, o Dr. Guazzelli é PhD em Ciência da Computação pela University of Southern California e é coautor do livro PMML in Action: Unleashing the Power of Open Standards for Data Mining and Predictive Analytics, agora, em sua segunda edição.



18/Jul/2012

Os termos Big Data, análise preditiva e computação em nuvem parecem estar em todo lugar atualmente:

  • Big Data, como o termo sugere, se refere a uma grande quantidade de dados capturados de diferentes origens e obtidos em diferentes formatos. Origens de dados podem abranger dados de pessoas ou sensores que podem ser estruturados ou não estruturados. Por exemplo, dados transacionais gerados por pessoas são estruturados; feeds de tweets não são estruturados. As grandes questões pertencentes ao Big Data são: "como extrair insights e valor dele" e "como extrair esses insights de forma mais eficaz". A resposta às duas perguntas envolve a analítica avançada.
  • Analítica é um termo amplo que se refere à analítica descritiva, bem como à análise preditiva. Enquanto a primeira permite que você saiba o que aconteceu no passado, a segunda informa o que acontecerá a seguir. A análise preditiva utiliza a analítica descritiva como um meio de avanço para tomar decisões de uma maneira mais precisa e consistente. As técnicas da conseguem aprender padrões relevantes a partir de dados históricos e utilizar esse conhecimento para prever o comportamento. Elas fazem isso combinando dados com matemática inteligente.

No entanto, dados e matemática não são toda a resposta; também é necessária uma infraestrutura em funcionamento que consiga manipular os dados e algoritmos complexos. No passado, soluções preditivas estavam destinadas a problemas bastante específicos e limitadas em escopo principalmente devido à indisponibilidade de energia de processamento rentável. Não mais. A computação em nuvem transformou totalmente essa equação fornecendo energia praticamente ilimitada a um baixo custo.

Em seu núcleo, a computação em nuvem é um conjunto de serviços que fornece recursos de computação por meio da internet. Grandes datacenters fornecem recursos como serviço escaláveis, sob demanda e geralmente virtualizados, eliminando a necessidade de investimentos em hardware, software e em sua própria infraestrutura de datacenter específica.

A computação em nuvem permite uma variedade de serviços, incluindo capacidade de armazenamento, energia de processamento e aplicativos de negócios. O acesso a serviços na nuvem não é um conceito novo, mas ele se tornou disponível como uma infraestrutura segura e confiável somente recentemente. O IBM® SmartCloud Enterprise é um exemplo excelente de uma infraestrutura em nuvem genérica. Desenvolvido pela IBM, ele fornece uma capacidade de cálculo dinâmica por meio de diversos datacenters espalhados por todo o mundo.

Este artigo descreve os conceitos básicos da análise preditiva, como a PMML, a linguagem comum dos modelos de mineração de dados, o que ela é e seus componentes. Em seguida, ele apresenta um mecanismo de PMML real e discute como ele é implementado e executa soluções preditivas. Finalmente, veja um exemplo de como o mecanismo pode ser utilizado no IBM SmartCloud Enterprise.

Soluções preditivas e PMML

Sempre que uma técnica de análise preditiva é treinada para a solução de um problema específico, o resultado será um modelo preditivo. Uma solução preditiva aborda não apenas o modelo em si, mas também todas as transformações de dados que são envolvidas na preparação de dados para consumo do modelo.

O pré-processamento de dados é utilizado para cuidar de qualquer falha presente nos dados brutos originais, como valores e outliers ausentes. No entanto, seu objetivo final é aumentar o poder de previsão dos campos de entrada brutos, transformando-os em recursos.

Os dados também são pré-processados para torná-los adequados para o "treinamento" (otimizados por meio de experiência). Por exemplo, redes neurais, uma técnica análise preditiva clássica, aceitarão valores numéricos somente como entradas. Nesse caso, um campo categórico precisará ser convertido para um campo contínuo antes de ser apresentado à rede.

Uma solução preditiva é geralmente desenvolvida em um ambiente de desenvolvimento de modelo. Como exemplo, temos o IBM SPSS Modeler e Statistics ou a linguagem de programação R de software livre e o ambiente de software para a computação estatística. Esses ambientes oferecem uma grande flexibilidade aos cientistas de dados para analisar e massagear dados históricos a fim de treinar um modelo preditivo.

Assim que estiver desenvolvida e validada, uma solução preditiva é, então, facilmente exportada para a PMML (Predictive Model Markup Language) para a implementação do modelo. A PMML é o padrão utilizado para representar soluções de análise preditiva. Com a PMML, a implementação do modelo é um tranquilo, já que não é necessária nenhuma codificação customizada para mover uma solução da área de trabalho do cientista para o ambiente de implementação no qual ele será colocado em uso.

A PMML é uma criação do Data Mining Group, um comitê liderado por fornecedores composto de empresas comerciais e analíticas de software livre. Como consequência, grande parte dos principais ambientes de desenvolvimento de modelos pode exportar a PMML. Um padrão maduro e refinado que evoluiu nos últimos dez anos, a PMML pode representar não apenas as técnicas preditivas utilizadas para conhecer os padrões a partir dos dados, mas também o pré-processamento de dados de entrada brutos e de saídas do modelo.

A PMML é baseada em XML (é legível por máquina e humanos). A estrutura de um arquivo PMML reflete a solução preditiva implementada por ela (consulte a Figura 1).

Figura 1. Um único arquivo PMML contém diversos elementos que refletem a solução preditiva implementada por ela
Um único arquivo PMML contém diversos elementos que refletem a solução preditiva implementada por ela

Diferentes elementos de linguagem são responsáveis por descrever:

  • Os dados de entrada brutos.
  • Tratamentos adequados para outliers, bem como valores ausentes e inválidos.
  • Pré-processamento de entradas de modelo, incluindo normalização, mapeamento, discretização, bem como uma série de funções para manipulações lógicas e aritméticas.
  • Elementos de modelo específicos para representar técnicas preditivas.
  • Pós-processamento de saída do modelo incluindo o ajuste de escala e as decisões de negócios.

A PMML também é notável por sua habilidade de representar diversos modelos com um único elemento de linguagem. Dessa maneira, um único arquivo PMML pode conter um conjunto, segmentação, encadeamento ou composição de modelos.

O IBM SPSS Modeler e o IBM SPSS Statistics permitem uma série de modelos a serem exportados na PMML. Esses ambientes também são excepcionais em sua capacidade de gerar transformações de dados na PMML. O IBM SPSS Statistics, por exemplo, permite o aumento de dados automáticos que podem ser exportados para um fluxo de campos derivados de PMML. R, por outro lado, é excelente ao permitir que usuários exportem conjuntos de modelos para a PMML. Por exemplo, um usuário pode desenvolver um modelo de floresta aleatório em R e exportar suas centenas de árvores para a PMML, que pode, então, ser facilmente movida para o ambiente de implementação e colocada em funcionamento em minutos.

É boa prática salvar uma solução como um arquivo PMML, mesmo se ela não for final. Isso permite que os cientistas de dados mantenham um registro de PMML de todas as tentativas realizadas antes de chegar à solução final. A equipe de analítica de dados pode, em seguida, utilizar esse registro para determinar a melhor escolha de parâmetros e práticas.

Para incluir seu conhecimento na PMML, leia O que é PMML?, o artigo do autor sobre o padrão de PMML. Consulte Recursos).

Agora, vamos ver um exemplo real.


O exemplo: Mecanismo de Decisão ADAPA

A Zementis Inc. fornece uma plataforma de Decision Management de análise preditiva baseada em PMML denominada ADAPA. Ela consegue consumir soluções preditivas expressas em PMML e executá-las em tempo real. Como o ADAPA se encontra no lado operacional, ele libera os recursos de TI da responsabilidade de codificar a solução preditiva de forma customizada para se ajustar ao ambiente operacional. Ele também permite aos cientistas de dados a oportunidade de implementar soluções preditivas por si próprios.

O Mecanismo de Decisão ADAPA é um ótimo exemplo de uma plataforma de implementação para soluções preditivas nas quais a PMML assume o papel principal. Nesse sentido, ele conta com dois importantes recursos:

  1. É um consumidor de PMML universal, já que ele aceita não somente arquivos PMML gerados por qualquer aplicativo em conformidade com a PMML, mas também arquivos PMML especificados em versões anteriores do padrão.
  2. Além de oferecer suporte às próprias técnicas de modelagem, o ADAPA também oferece suporte a todas as ofertas de PMML em termos de pré- e pós-processamento. Na verdade, ele vai além. Se uma solução preditiva implementa funções que não são parte do padrão de PMML, o ADAPA permite sua implementação em Java™ (consulte a Figura 2). O arquivo JAR resultante pode, então, ser transferido por upload para o mecanismo como um recurso e quaisquer funções que ele contém podem ser diretamente instanciadas a partir da PMML.
Figura 2. Estenda o padrão de PMML permitindo que funções customizadas sejam integradas como um recurso codificado em Java
Estenda o padrão de PMML permitindo que funções customizadas sejam integradas como um recurso codificado em Java

Modelos e regras preditivos em ação

Assista à demo do Dr. Alex Guazzelli, VP de Analítica da Zementis, de um aplicativo de pré-qualificação em execução no Mecanismo de Decisão ADAPA da Zementis que utiliza modelos e regras preditivos para analisar o risco de inadimplência em aplicativos de empréstimo.

Assista à demo

Conforme mostrado na Figura 2, além do mecanismo de análise preditiva baseado na PMML, o ADAPA também incorpora toda a funcionalidade de um mecanismo de regras. Na verdade, ele também fornece integração contínua de análise preditiva e regras de negócios. Dessa maneira, ele permite que o insight acionado por dados e o conhecimento especializado sejam combinados a uma única estratégia de decisão.

Em seguida, uma estrutura de tópicos sobre como implementar e executar soluções preditivas utilizando o ADAPA como o exemplo.


Implementação e execução do modelo preditivo

Considerando a PMML e o ADAPA, o processo de implementação de um modelo preditivo é equivalente à transferência por upload de um arquivo PMML correspondente para o mecanismo. Sempre que for transferido por upload com êxito, um modelo estará pronto para ser executado, tanto por meio de serviços da web quanto por meio do Console da Web do ADAPA. Os usuários também podem acessar modelos no ADAPA diretamente do Excel (consulte a Figura 3).

Figura 3. Os modelos podem ser implementados e testados no ADAPA por meio de seu Console da Web
Os modelos podem ser implementados e testados no ADAPA por meio de seu Console da Web

Com efeito, os serviços da web permitem que aplicativos de toda a empresa acessem modelos e suas previsões em tempo real. A execução sob demanda e em modo em lote também podem ser realizadas da mesma maneira, enquanto também se beneficiam do Console da Web do ADAPA. Isso serve como um portal de administração interativo no qual os modelos podem ser manualmente gerenciados e verificados.

Os usuários de negócios também se beneficiam da capacidade de acessar modelos e de pontuar dados diretamente do Microsoft® Office Excel® utilizando o Suplemento do ADAPA. Ele permite que soluções preditivas complexas sejam utilizadas sem as complicações envolvidas no desenvolvimento e implementação do modelo. Com o suplemento, os usuários simplesmente selecionam os dados que desejam pontuar no Excel, escolhem o modelo adequado da lista de modelos disponíveis e clicam em Pontuação.

Observe que agora você está operando em um ambiente verdadeiro de diversos fornecedores e plataforma cruzada. Como os modelos podem ser desenvolvidos em diversas ferramentas em conformidade com a PMML, uma etapa prudente no processo de implementação é a verificação do modelo, que assegura que o mecanismo de pontuação e o ambiente de desenvolvimento do modelo produzam exatamente os mesmos resultados. O ADAPA fornece um processo de teste integrado para assegurar que um modelo foi transferido por upload com êxito e está funcionando conforme esperado. Ele permite que um arquivo de teste contendo qualquer quantidade de registros com todas as variáveis de entrada necessárias e que o resultado esperado para cada registro sejam transferidos por upload para a correspondência da pontuação. O mesmo processo também pode ser integrado ao próprio arquivo PMML que, nesse caso, terá um elemento extra especificamente para a verificação do modelo.

Quando a verificação do modelo estiver concluída, estatísticas sobre a quantia total de registros correspondidos e não correspondidos e as porcentagens são retornadas. Caso qualquer registro não tenha passado no teste de correspondência, uma lista de registros reprovados é exibida. É possível rastrear as informações calculadas em busca de cada registro a fim de localizar onde os valores esperados e computados diferem e, portanto, apontar a origem do problema.


ADAPA no IBM SmartCloud Enterprise

Conforme mencionado anteriormente, o ADAPA utiliza chamadas de serviço da web para permitir que decisões automáticas sejam virtualmente integradas aos sistemas e aplicativos em toda a empresa. A fim de minimizar o custo total de propriedade, a execução do modelo no ADAPA está disponível como um serviço por meio do SmartCloud Enterprise (consulte Recursos).

Explore o passado para compreender o futuro: Análise preditiva

Ed Bottini, da IBM, e Michael Zeller, da Zementis, exibem os recursos técnicos do Mecanismo de Decisão ADAPA da Zementis no IBM SmartCloud Enterprise. O conhecimento inclui como combinar soluções preditivas (SPSS, Linguagem de Programação R), como implementar um ambiente de nuvem ágil de melhor prática suscetível à análise preditiva e entender como a PMML de padrão aberto incorpora diversos modelos preditivos.

Assista à demo

O modelo de licença do SaaS fornece a oportunidade de fornecedores como a Zementis proporcionarem soluções de software como um serviço rentável, escalado com a demanda do usuário e pago com base no consumo real, como sua conta de serviços de utilidade pública. O ADAPA no SmartCloud é uma solução de SaaS totalmente hospedada. Os usuários pagam somente pelo serviço e pela capacidade, mensalmente, eliminando a necessidade de licenças de software caras e recursos de hardware locais. O modelo de SaaS elimina a responsabilidade dos usuários de gerenciarem uma infraestrutura escalável de computação sob demanda.

O processo de ativação de um servidor ADAPA virtual no IBM SmartCloud corresponde ao cenário tradicional de compra de hardware e instalação em uma sala de servidores. A única diferença é que o servidor, nesse caso, se encontra na nuvem, acompanha uma versão pré-instalada do ADAPA e é ativado em apenas alguns minutos, sob demanda e pronto para ser usado. É possível ter uma ou mais instâncias em execução a qualquer momento.

Independentemente da energia de processamento, cada tipo de instância fornece uma arquitetura single-tenant. O serviço é implementado como uma instância privada e dedicada que contém modelos preditivos e regras de negócios. Dessa maneira, o acesso (por HTTPS) a qualquer instância é privado. Consequentemente, os arquivos de decisão e os dados jamais compartilham o mesmo mecanismo com outros clientes.


Conclusão

A análise preditiva está revolucionando o modo como as empresas fazem negócios atualmente. Como uma disciplina, ela permite que soluções preditivas sejam desenvolvidas. Essas soluções espreitam os dados em constante crescimento que nós, como uma sociedade, coletamos de pessoas (por meio de dados transacionais) e sensores. Após serem analisados e transformados, os dados são utilizados como entrada para uma técnica preditiva responsável pelo aprendizado de importantes padrões ocultos neles. Sempre que isso acontece, nasce um modelo preditivo.

No entanto, a fim de ser colocado em funcionamento, ele precisa ser movido da área de trabalho do cientista para o ambiente operacional. Para isso, aproveitamos o padrão de PMML. Ele permite que uma solução preditiva seja desenvolvida em uma ferramenta e facilmente movida para outra para execução.

Um padrão maduro e refinado, a PMML é suportada por todas as principais ferramentas de mineração de dados, incluindo ambientes comerciais e de software livre. À medida que o suporte à PMML aumenta, diferentes ferramentas estão ficando cada vez mais elaboradas no modo como utilizam a PMML para a representação de suas soluções preditivas. Elas variam do pré-processamento abrangente de dados aos conjuntos de modelos nos quais centenas de modelos são representados em um único arquivo PMML e a saída é a média ponderada de todos eles.

Consumidores PMML universais, como o Mecanismo de Decisão ADAPA, da Zementis, permitem que soluções preditivas sejam colocadas em funcionamento de maneira instantânea. A PMML libera os recursos de TI, pois não há necessidade de implementações customizadas ou de recodificação. Dessa maneira, o mesmo arquivo PMML gerado pelo ambiente de desenvolvimento de modelos pode ser transferido por upload diretamente para o consumidor e estará prontamente disponível para execução.

Quando estiver implementada e pronta para uso, uma solução preditiva conseguirá aplicar seu conhecimento a novas situações e, portanto, gerar previsões que podem mudar o cenário dos negócios de forma significativa. Quando combinadas a regras de negócios, essas previsões podem ser utilizadas para orientar decisões automáticas que se beneficiam não apenas do conhecimento acionado por dados, mas também do conhecimento especializado expresso como regras.

Desenvolvido pela nuvem, o Big Data está possibilitando que soluções preditivas estejam prontas para oferecer uma visão mais completa dos problemas que podem ser resolvidos por ele. Quando essas soluções são combinadas a padrões abertos, a análise preditiva atinge todo o seu potencial. Em nosso mundo cada vez mais rápido, ela se torna tão ágil quanto deve ser.

Recursos

Aprender

Obter produtos e tecnologias

Discutir

Comentários

developerWorks: Conecte-se

Los campos obligatorios están marcados con un asterisco (*).


Precisa de um ID IBM?
Esqueceu seu ID IBM?


Esqueceu sua senha?
Alterar sua senha

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


A primeira vez que você entrar no developerWorks, um perfil é criado para você. Informações no seu perfil (seu nome, país / região, e nome da empresa) é apresentado ao público e vai acompanhar qualquer conteúdo que você postar, a menos que você opte por esconder o nome da empresa. Você pode atualizar sua conta IBM a qualquer momento.

Todas as informações enviadas são seguras.

Elija su nombre para mostrar



Ao se conectar ao developerWorks pela primeira vez, é criado um perfil para você e é necessário selecionar um nome de exibição. O nome de exibição acompanhará o conteúdo que você postar no developerWorks.

Escolha um nome de exibição de 3 - 31 caracteres. Seu nome de exibição deve ser exclusivo na comunidade do developerWorks e não deve ser o seu endereço de email por motivo de privacidade.

Los campos obligatorios están marcados con un asterisco (*).

(Escolha um nome de exibição de 3 - 31 caracteres.)

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


Todas as informações enviadas são seguras.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=80
Zone=Cloud computing
ArticleID=823107
ArticleTitle=Análise Preditiva Ágil no IBM SmartCloud Enterprise
publish-date=07182012