Abordagem e Aplicação Ideal de Segmentação

Armazenamento em cluster versus árvores de classificação

Este artigo discute técnicas de armazenamento em cluster, classificação e segmentação específicas para marketing no desenvolvimento de soluções de marketing segmentado, desenvolvimento de produtos e criação de perfis. Nele, são destacadas as abordagens de segmentação e os algoritmos populares e discutidos seus pontos fortes e limitações. Um caso de uso de negócios também é incluído, para ilustrar o processo de seleção de algoritmo.

Kimberly Chulis, CEO and Co-founder, Core Analytics, LLC

Photograph of Kimberly ChulisKimberly Chulis é um dos fundadores originais da Core Analytics, LLC. Com mais de 18 anos de experiência profissional em analítica avançada, ela já demonstrou conhecimento analítico em projetos em várias empresas e segmentos de mercado, incluindo WellPoint, HCSC, UHG, Great West, Accenture, Ogilvy, Microsoft, Sprint/Nextel, Commonwealth Edison, TXU, Eloyalty, SPSS, Allstate, Cendant e outras nos segmentos de mercado financeiro, de telecomunicações, assistência médica, energia, sem fins lucrativos, varejo e educacional. Kimberly realizou pesquisa de PhD no programa de Comportamento do Consumidor de Saúde e Serviços Humanos da Universidade Purdue e possui mestrado em economia com ênfase em economia e econometria da saúde pela Universidade de Illinois em Chicago.



17/Set/2012

O termo segmentação tornou-se universal, mas assume tantos significados diferentes com base no contexto que, com frequência, resulta em confusão. Não é incomum que corporações tenham vários esforços de segmentação em andamento simultaneamente, em diversos departamentos diferentes. Em geral, a maioria dos profissionais concorda que a segmentação é um termo abrangente que se refere ao particionamento de um todo em subconjuntos de unidades semelhantes. Porém, além desse tópico, pode haver um assunto de intenso debate.

Suponha que, a um determinado momento em uma organização, os seguintes esforços de segmentação estejam em andamento ao mesmo tempo:

  • O departamento de Pesquisa e desenvolvimento (P&D) está desenvolvendo uma segmentação de cliente para melhor compreender as preferências e comportamentos de compra dos clientes, para conduzir a melhorias de produto personalizadas. A P&D também pode desenvolver uma segmentação de produto, para compreender as semelhanças de produtos e os tipos de produtos que, em geral, são comprados juntos.
  • O departamento Financeiro identificou os segmentos de clientes e os clientes em potencial, para auxiliar na previsão de receitas. Nesse caso, os dados podem ser lucratividade, custo de aquisição, valor no tempo de vida, demografia, custos de publicidade e retenção, entre outros.
  • A segmentação de pesquisa de mercado gera a base para a percepção de serviço e qualidade, para conduzir uma estratégia de marca e esforços de publicidade. Tradicionalmente, os pesquisadores de mercado realizam a segmentação com instrumentos de pesquisa e dados de feedback de clientes.
  • O Marketing possui mais uma segmentação, para compreender quem está respondendo a diversas campanhas do canal de marketing, refinar a segmentação e melhorar a resposta da campanha. A equipe de analítica de marketing, com frequência, faz uso de dados brutos de demografia e comportamento de compras do cliente como base para a segmentação.

Esse tipo de cenário é muito comum, em que uma empresa fica sem uma estratégia de segmentação universal e segmentações diferentes (e, muitas vezes, contraditórias) são desenvolvidas em todos os departamentos e usadas de maneiras distintas. Essa prática é predominante em diversos setores nos quais a segmentação é usada. Para oferecer uma captura instantânea limitada da maneira como diversos segmentos de mercado abordam a segmentação, considere as seguintes aplicações: empresas de seguro usam segmentação para identificar conjuntos de risco e definir preços e níveis especiais. O segmento de mercado de eletricidade usa uma abordagem de baixo para cima à previsão de carga, realizando previsões no nível de segmento para acumular para a demanda total. O segmento de mercado automotivo usa a segmentação para compreender as preferências do mercado alvo sobre design e recursos. Os bancos segmentam clientes de cartão de crédito em potencial para campanhas de mala direta. Biólogos referem-se à segmentação como algo muito diferente, separando tipos de animais em categorias com base na estrutura corporal e zonas de crescimento. As empresas farmacêuticas empregam a segmentação para maximizar os ciclos de vida de inovação do produto. O campo de processamento de imagens (que inclui reconhecimento fácil) é uma das áreas mais complexas, contando com aplicativos sofisticados de segmentação de algoritmos paramétricos, crescimento de região e detecção de bordas. Independentemente do segmento de mercado, aparentemente, todas as empresas se beneficiam a partir do uso de uma estratégia de segmentação corporativa mais consolidada e alinhada.

Segmentação de marketing

As distinções listadas acima detalham as diversas abordagens e objetivos dos projetos de segmentação. Pesquisadores de mercado e profissionais de analítica de marketing, em geral, abordam o processo com objetivos, dados de entrada e metodologia muito diferentes. Iremos explorar um pouco mais as abordagens padrão à segmentação de marketing.

A primeira etapa em qualquer esforço de segmentação é compreender o objetivo e a motivação para o estudo. Quem está procurando a segmentação? Para que ela será usada? Por que é necessária? Quais informações sobre os consumidores são necessárias e ainda não estão disponíveis? Quem irá usar a saída? Quais dados estão disponíveis para fornecer suporte à segmentação? Como a segmentação será acionável e implementada? De que maneira o sucesso do projeto será medido? As respostas a todas essas perguntas ajudam a identificar a técnica, os dados e algoritmos mais adequados necessários para solucionar o problema. Trataremos de um caso de uso específico em uma seção posterior e descreveremos duas opções viáveis, além de discutir as semelhanças e diferenças entre a segmentação do cliente e a modelagem preditiva (consulte Recursos para obter um link com mais informações).

Entradas de dados e abordagens de segmentação padrão

Os dados são uma entrada essencial para qualquer esforço de segmentação. Em geral, desde que a origem de dados possa ser associada com precisão a um ID relacionado ao indivíduo ou à residência, é preferível que sejam usados mais dados. A lista de dados disponíveis é praticamente infinita, mas há algumas categorias de dados essenciais:

  • Dados de pesquisa de opinião podem ser coletados a partir de clientes ou consumidores da população geral sobre preferências de produto e preço, vendas de canal, satisfação da experiência do cliente e recomendações de melhoria.
  • Dados transacionais são, tradicionalmente, armazenados em bancos de dados relacionais e incluem compras, devoluções, descontos, método de pagamento, data e hora da compra e itens comprados juntos em um ambiente de varejo. Em um ambiente financeiro, essas informações são convertidas em depósitos, saques, produtos como conta corrente, poupanças e hipotecas, e os detalhes sobre cada produto. Em um ambiente de energia, essas informações incluem uso, falta de energia, pagamentos, depósitos, instalação de medidores inteligentes, entre outras.
  • Dados comportamentais incluem comportamento de navegação na web, navegação na loja, rastreamento dos olhos, reconhecimento de voz, pesquisa, uso de celular e informações de dispositivo, geolocalização, frequência e volume de interações de entrada e saída com a marca. Interações de mídia social como "curtir", retuitar e seguir também se enquadram nessa valiosa categoria de dados.
  • Dados demográficos podem ser coletados diretamente de consumidores ou comprados de provedores de dados demográficos que oferecem entre 300 e 900, ou mais, variáveis relacionadas ao indivíduo, à residência e ao código postal. Muitos desses conjuntos de dados anexados por terceiros são derivados de dados de resposta do censo dos EUA.
  • Outras categorias de dados incluem centrais de atendimento, bate-papo, busca de informações, comparação de preços, revisões, participação em comunidades e programas periféricos e informações de produto.

Após a conclusão do processamento do objetivo de negócios preliminar e da detecção de dados, é hora de considerar possíveis abordagens de segmentação. É possível selecionar entre uma variedade de abordagens tradicionais, e cada uma possui seus próprios benefícios e limitações. Por exemplo, muitas das opções de armazenamento em cluster resultam em clusters do mesmo tamanho. Embora isso possa ser desejável de um ponto de vista de implementação, forçar clusters do mesmo tamanho também pode diluir a eficiência das medidas de semelhança em um cluster.

Há três escolhas básicas ao determinar a melhor abordagem de segmentação. A Figura 1 mostra os três métodos gerais: não quantitativo, interdependente e dependente.

Figura 1. Três escolhas de segmentação básica
Três escolhas de segmentação básica

A primeira opção é uma abordagem qualitativa, ou não quantitativa envolvendo dimensões de contraste derivadas por meio de entrevistas com partes interessadas de negócios e grupos de foco, para reunir depoimentos. Essas dimensões refletem os dados experimentais sobre o comportamento do consumidor e são usadas para atribuir segmentos subjetivos para uma estratégia de tratamento focada. Embora direcionalmente útil, essas abordagens não quantitativas tendem a ser menos robustas do que as outras duas categorias de segmentação conduzidas por dados —interdependente e dependente.

Interdependência refere-se a um subconjunto de técnicas de segmentação multivariadas que agrupam consumidores com base em características semelhantes. A análise de cluster é um tipo popular de segmentação interdependente, em que todas as entradas do conjunto de dados são consideradas simultaneamente, e não há divisão de variáveis dependentes e independentes. O mapeamento e a criação de gráficos iterativos de segmentos, essenciais para o processo de armazenamento em cluster, são usados para visualizar relacionamentos e a variação de cluster com relação ao espaço, até que o melhor ajuste final seja identificado.

Dependência refere-se a abordagens de análise de padrão, como redes Kohonen, Indução de regra, Chi-square based automatic interaction detection (CHAID), C5.0, Iterative Dichotomiser 3 (ID3) e classification and regression trees (CARTs), e, em geral, são selecionadas para a identificação de segmentos de mercado essenciais. A maioria desses algoritmos, bem como as abordagens de aprendizado de máquina (redes neurais), resulta em uma saída de árvore, útil por fornecer uma representação gráfica visual de segmentos, que auxilia na validação e explicação às partes interessadas que não possuem conhecimento técnico. Uma das principais diferenças nessas abordagens é o fato de os modelos solicitarem uma variável dependente, enquanto que nenhuma variável dependente é designada nos modelos de interdependência. A variável dependente, em geral, é uma variável do tipo sinalizador 0-1, que combina o objetivo da segmentação (ou seja, a rotatividade para identificar segmentos de clientes com maior probabilidade de migrar para a concorrência, alto valor para clientes com maior probabilidade de exceder o limite de gasto desejado ou alto risco para grupos de clientes com maior probabilidade de inadimplência em pagamentos de cartão de crédito ou empréstimos). Além dos agrupamentos resultantes em três formatos, esses modelos de dependência geram métricas de probabilidade e propensão associadas em suas métricas de saída. Por esse motivo, há um amplo debate no segmento de mercado sobre a semântica da segmentação com abordagens de dependência.

Os defensores desse método enfatizam que a principal saída das segmentações de dependência são agrupamentos de clientes semelhantes, que podem ter o perfil mais bem definido e estratégias de tratamento personalizadas aplicadas para reduzir a migração para a concorrência, incentivar o comportamento de gasto ou introduzir estratégias de prevenção de risco antes de uma inadimplência iminente. Os críticos dessa abordagem argumentam que o modelo resultante é, na verdade, um modelo preditivo, e não um modelo de segmentação, em função da saída de previsão de probabilidade. A distinção pode estar no uso do modelo. Segmentação trata-se de classificar as bases de clientes em grupos distintos de acordo com dados multidimensionais, e é usada para sugerir um roteiro acionável para projetar estratégias relevantes de marketing, produto e atendimento ao cliente em um nível de segmento que conduza aos resultados de negócios desejados. Modelagem preditiva trata-se de prever um comportamento de cliente específico relacionado ao indivíduo. Se isso parece uma definição lógica, ela conclui que o uso da saída deve determinar a segmentação contra a designação do modelo preditivo.

A etapa final de preparação antes de iniciar um esforço de segmentação é selecionar o software mais adequado para o trabalho. Diversos fornecedores de software livre e comerciais oferecem uma variedade de algoritmos de classificação e armazenamento em cluster. Alguns, como o freeware Rapid Miner, oferecem árvores de decisão, supervised vector machines (SVMs) e dois tipos de redes neurais. Outros, como a IBM, possuem uma ampla gama de opções, incluindo o IBM ® SPSS® Advanced Statistics (consulte os Recursos), incluindo o Kohonen, Two-step, K-Means e o Decision Tree Module, que oferece quatro algoritmos em árvore: CHAID, Exhaustive CHAID, CART e QUEST (um algoritmo de árvore binário imparcial). O IBM Unica possui o Affinium Model, que oferece um modelo de venda cruzada que fornece CHAID, CART e redes neurais. O conjunto de mineração de dados IBM Intelligent Miner ® fornece uma ampla lista de algoritmos com a habilidade de realizar referências e comparar diversos algoritmos, para facilitar a seleção do melhor algoritmo final. Essa lista fornece informações detalhadas sobre muitos dos pacotes estatísticos com suporte para abordagens de segmentação.

Tipos de clusters e abordagens de classificação

Clusters hierárquicos e não hierárquicos (separados) são limitados por sua habilidade de analisar variáveis numéricas, a menos que seja incluída uma matriz de distância que permita entradas de caracteres e números. Os clusters hierárquicos não se sobrepõem, embora um cluster possa ser um subconjunto totalmente contido de outro. Os clusters de separação também não se sobrepõem, por isso, os clientes podem fazer parte somente de um cluster. Em contraste, os clusters sobrepostos são versões irrestritas que podem ser ajustadas para permitir graus variáveis de sobreposição. Os clusters difusos podem se enquadrar em uma das três categorias acima e são diferenciados pelas probabilidades atribuídas de associação a cada cluster. Os algoritmos K-Means podem ser executados diversas vezes para produzir um número específico de clusters planos e separados. Uma técnica mais leve usa estimativas de probabilidade por meio de classificação iterativa, denominada Misturas normais para atribuir a probabilidade de inclusão do grupo. Ligação única é uma técnica de armazenamento em cluster hierárquica que mescla dois clusters, com a menor distância mínima por par a cada etapa, e ligação completa mescla dois clusters, em que a fusão representa o menor diâmetro. A Ligação Média (média de grupo) é uma abordagem de armazenamento em cluster que possui um bom desempenho geral com relação à publicação de observação de Milligan, de 1981, sobre o assunto, combinando características de ligação única e completa (consulte os Recursos para obter um link com mais informações). O método de variância mínima de Ward também tem um bom desempenho. Outros métodos estão disponíveis, como análise de fatores, usada com frequência no primeiro estágio de armazenamento em cluster para fins de redução de variável, e os algoritmos de classe latente, que representam uma abordagem de modelagem de equação estrutural, para maximizar o ajuste geral e localizar grupos em conjuntos de dados de dados categóricos multivariados.

Em termos de abordagens de classificação, o CHAID é uma árvore de decisão que usa teste de significado ajustado para detectar a interação entre variáveis e determinar as divisões em diversos caminhos. Entre suas vantagens, estão a presença de uma saída simples de compreender e interpretar, o fato de ser uma abordagem padrão do setor ao marketing direto e de poder manipular facilmente entradas categóricas e numéricas. O CHAID não possui um bom desempenho em pequenos conjuntos de dados e, em geral, está associado aos estágios iniciais da exploração de dados nos esforços de modelagem preditiva e de regressão. CART (consulte os Recursos) é, na verdade, um termo geral para árvores de classificação e de regressão que difere, essencialmente, em seus critérios de divisão de nó. ID3 (consulte os Recursos) é uma abordagem que resulta em nós que minimizam a entropia.


Caso de uso de segmentação

Cenário de negócios: Uma empresa de seguros de saúde está interessada em segmentar sua base de clientes para determinar os melhores segmentos de cliente para uma campanha de difusão, incentivando a participação em programas de bem-estar online. A expectativa é que, à medida que os membros assumem uma função maior no autogerenciamento da precaução, as reclamações irão diminuir e os resultados para a saúde melhorar, levando à satisfação e retenção dos membros.

A empresa de seguro de saúde coleta dados sobre os tipos de planos, demografia, reclamações, participação em programas de controle de doenças e bem-estar, informações detalhadas sobre ligações, bate-papo e emails recebidos e realizados, logins no website e sessões de busca de informações, dados sobre medicamentos controlados e outras variáveis relacionadas ao indivíduo. Quais são as possíveis abordagens de segmentação para lidar com esse caso de negócio?

Como ocorre na maioria dos casos de analítica aplicada, o processo envolve uma combinação de arte e ciência.

Em determinada extensão, a seleção da abordagem se resume a uma questão de preferência do analista, de disponibilidade de software e algoritmos associados e da familiaridade com a validação e avaliação de critérios de sucesso da saída. Nesse caso de uso, poderia ser aplicada tanto uma abordagem de armazenamento em cluster independente (sem variável dependente) quanto dependente (classificação). Lembre-se de que a última requer uma variável dependente: se os dados possuírem suporte para a identificação de membros que já estão participando de um programa de bem-estar online ou que estejam participando de um programa offline e estejam associados a métricas de sucesso desejadas, esse grupo pode ser sinalizado com WellFlag=1, e o restante pode ser sinalizado com WellFlag=0. Essa sinalização binária pode ser processada de maneira melhor se uma variável demográfica estiver disponível, indicando um usuário de computador, ou se o registro do membro incluir um endereço de email, sendo que ambos servem como um proxy para propensão a possuir e usar computadores. Devido ao fato de que as entradas de dados possuem caracteres e números, o CHAID é uma abordagem de classificação flexível que irá separar com cuidado os membros por dados categóricos e numéricos em segmentos e permitirá um perfil mais detalhado para auxiliar no projeto do website e do subprograma de bem-estar (com base nas necessidades médicas, risco para doenças e necessidades alvo).

Essa segmentação também pode ser abordada com uma técnica de armazenamento em cluster, em que Average Linkage ou K-Means é aplicado usando os valores numéricos e tratando valores categóricos com medidas de "distância" para inclusão no modelo. A seleção de algoritmo real depende da saída desejada. Se forem necessários clusters distintos (ou seja, um membro precisar participar de um tipo de programa de bem-estar), opções não dispersas, como K-Means e Normal, podem ser selecionadas. Se clusters sobrepostos forem mais adequados, clusters Dispersos e de rotação de Fator são recomendados. A seleção do algoritmo mais adequado é o resultado da preparação do conjunto de dados, transformação dos valores categóricos de maneira adequada e, em seguida, da execução dos conjuntos de dados por meio das várias abordagens candidatas e revisão da saída gráfica, para obter o tamanho relativo e os agrupamentos dos clusters. Esses gráficos permitem a comparação e seleção de clusters ideais: aqueles que possuem clusters mais bem separados e mais compactos representam o melhor ajuste.


Segmentação e implicações de Big data

Big data é um termo que se aplica a petabytes de dados sociais, de dispositivos móveis, da web, de texto e de sensor, gerados e armazenados relacionados ao indivíduo. Esses dados são, em geral, armazenados em bancos de dados não estruturados e ferramentas como o IBM InfoSphere ® BigInsights™, que reside na plataforma Apache Hadoop e facilita a analítica de grande escala por analistas de negócios, em vez de especialistas em aprendizado de máquina. Essas novas tecnologias permitem o acesso às origens de dados muito grandes e não exploradas anteriormente, bem como à filtragem rápida e às funções MapReduce, agregando valor com a inclusão da representação de dados não estruturados, como imagens, vídeos e opiniões com base em texto no conjunto de dados tradicional.

Os algoritmos de segmentação clássicos descritos neste artigo permanecem relevantes em um ambiente de Big data: a abordagem e os critérios de seleção continuam iguais. A diferença está, em especial, no pré-processamento e na integração de dados não estruturados e promete levar a resultados mais avançados e acionáveis de segmentação. Empresas que criam pilhas de tecnologia para acessar Big data podem aproveitar algo que, de outra maneira, continuaria sendo uma reserva de informações incômoda e basicamente inacessível. Muitas das soluções de software livre projetadas para gerenciar Big data são baseadas em princípios de segmentação e filtragem semelhantes aos algoritmos descritos aqui. Em vez de analisar os dados em sua totalidade, é possível recolher amostras não filtradas de Big data e aplicar a segmentação tradicional, para obter insights do comportamento do novo canal digital. As empresas capazes de associar essas novas fontes de dados não estruturados e integrá-las totalmente em uma análise multidimensional estarão mais próximas da visão completa ideal do cliente e de todos os benefícios competitivos mais profundos associados aos insights do cliente.

Recursos

Aprender

Obter produtos e tecnologias

  • A Rapid Miner oferece diversas opções de software para segmentação, incluindo SVMs.
  • Saiba mais sobre SPSS Advanced Statistics.
  • Avalie os produtos IBM da maneira que for melhor para você: faça download da versão de teste de um produto, avalie um produto online, use-o em um ambiente de nuvem ou passe algumas horas no SOA Sandbox aprendendo a implementar a Arquitetura Orientada a Serviços de forma eficiente.
  • Experimente o IBM InfoSphere BigInsights Basic Edition, um download integrado, testado e pré-configurado gratuito para qualquer um que deseje realizar testes com Hadoop. Também é possível usar esse produto na nuvem.

Discutir

  • Participe da Comunidade do developerWorks. Entre em contato com outros usuários do developerWorks, enquanto explora blogs, fóruns, grupos e wikis orientados a desenvolvedores.

Comentários

developerWorks: Conecte-se

Los campos obligatorios están marcados con un asterisco (*).


Precisa de um ID IBM?
Esqueceu seu ID IBM?


Esqueceu sua senha?
Alterar sua senha

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


A primeira vez que você entrar no developerWorks, um perfil é criado para você. Informações no seu perfil (seu nome, país / região, e nome da empresa) é apresentado ao público e vai acompanhar qualquer conteúdo que você postar, a menos que você opte por esconder o nome da empresa. Você pode atualizar sua conta IBM a qualquer momento.

Todas as informações enviadas são seguras.

Elija su nombre para mostrar



Ao se conectar ao developerWorks pela primeira vez, é criado um perfil para você e é necessário selecionar um nome de exibição. O nome de exibição acompanhará o conteúdo que você postar no developerWorks.

Escolha um nome de exibição de 3 - 31 caracteres. Seu nome de exibição deve ser exclusivo na comunidade do developerWorks e não deve ser o seu endereço de email por motivo de privacidade.

Los campos obligatorios están marcados con un asterisco (*).

(Escolha um nome de exibição de 3 - 31 caracteres.)

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


Todas as informações enviadas são seguras.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=80
Zone=Segmentos de mercado, Information Management
ArticleID=834675
ArticleTitle=Abordagem e Aplicação Ideal de Segmentação
publish-date=09172012