Desenvolva Repositórios de Dados de Mídia Social Usando Ferramentas de Mineração de Texto SPSS

O advento da mídia social mudou a forma com a qual grandes marcas fazem negócio. Antes da adoção ampliada dos canais sociais, o comportamento do cliente tinha base mais em coleta de informações independentes e formação de preferência. Os clientes estão cada vez mais online, participando de conversas, pedindo orientação, realizando comparações de preço e de qualidade e influenciando outras pessoas. Esses comportamentos no nível individual integrados a dados brutos de mídia social representam a preferência do cliente, o histórico de compras, eventos significativos da vida, humor, personalidade e outros atributos que podem ser obtidos por meio da mineração de texto e armazenados em um repositório de dados de mídia social.

Kimberly Chulis, CEO and Co-founder, Core Analytics, LLC

Photograph of Kimberly ChulisKimberly Chulis é um dos fundadores originais da Core Analytics, LLC. Com mais de 18 anos de experiência profissional em analítica avançada, ela já demonstrou conhecimento analítico em projetos em várias empresas e segmentos de mercado, incluindo WellPoint, HCSC, UHG, Great West, Accenture, Ogilvy, Microsoft, Sprint/Nextel, Commonwealth Edison, TXU, Eloyalty, SPSS, Allstate, Cendant e outras nos segmentos de mercado financeiro, de telecomunicações, assistência médica, energia, sem fins lucrativos, varejo e educacional. Kimberly realizou pesquisa de PhD no programa de Comportamento do Consumidor de Saúde e Serviços Humanos da Universidade Purdue e possui mestrado em economia com ênfase em economia e econometria da saúde pela Universidade de Illinois em Chicago. Entre em contato com Kimberly em kim@coreanalytics.com



23/Out/2012

Introdução

O precursor das redes sociais que conhecemos hoje surgiu no final dos anos 1960, quando os quadros de boletim eram uma das primeiras plataformas interativas de compartilhamento de mensagem. Apenas recentemente—nos anos 1990, quando a craigslist e a AOL entraram em cena—a revolução social conquistou rapidamente o terreno. As redes sociais decolaram nos anos 2000, com o Friendster, LinkedIn, MySpace, Flickr, Vimeo, YouTube e então o Facebook em 2004 e o Twitter em 2006, e mais recentemente Google+ e Pinterest.

As tendências digitais que acompanham a adoção ampliada da mídia social têm implicações diretas para as marcas à medida que elas desenvolvem uma estratégia digital fluída para um ambiente caracterizado por partes em movimento. O fluxo social está efetivamente ampliando o relacionamento entre marcas e clientes. Antes do e-commerce e da mídia social, os clientes faziam um pouco de pesquisa sobre os produtos e faziam uma compra distinta, e o relacionamento terminava até chegar a hora da próxima compra. A divulgação boca a boca era limitada a uma rede social física de um cliente. Agora, a opinião do cliente é amplificada por meio de redes sociais, com um alcance potencial de todo o público consumidor.

As marcas sabem que os clientes atuais estão coletando ativamente informações antes da compra, revisando outras opiniões favoráveis e desfavoráveis e podem realizar melhor comparações rápidas de com alguns toques em um dispositivo móvel. Eles também sabem que seus clientes são bem mais sensíveis à influência de outros em sua rede social, o que está levando ao desenvolvimento de um novo tipo de programa de fidelidade de influenciador voltado ao incentivo e recompensa de pessoas que possuem grande influência sobre a marca. Os clientes estão se tornando os novos campeões de marca de uma forma que o alinhamento da personalidade e identidade da marca nunca foi tão fundamental para a sobrevivência da marca.

Como, então, as marcas estão gerenciando esse influxo de informações de interação digital? A tecnologia está correndo para equilibrar a corrida com o cliente social. As próprias redes sociais forneceram tráfego específico ao site e ferramentas de estatística, como Facebook Insights, YouTube Insights e pacotes de gerenciamento de mídia social, como o HootSuite e portais de medição do influenciador como Klout fornecem opções de terceiros para obtenção de métricas de controle de atividade da marca. Uma variedade de ferramentas de escuta social comercial, como Radian6, SM2, Viralheat e Sysomos, fornecem relatórios, análises de texto, participação, análise de sentimento, informações sobre o visitante e fluxo de trabalho de gerenciamento. Essas ferramentas estão aprimorando seu escopo e utilidade, mas muitas delas ainda estão no estágio inicial de evolução. As análises de sentimento, por exemplo, ainda estão longe da precisão, e os dados sociais fornecidos por meio dos serviços como o Twitter firehose, e por empresas parceiras como Gnip e DataSift, ainda são bastante caros e limitados com relação aos dados disponíveis. Portanto, há um forte argumento para o aumento dessas ferramentas comerciais com mineração de texto interna e a criação de um repositório de dados de mídia social patenteado. Os repositórios de dados de mídia social armazenam informações no nível do cliente derivados da interação da mídia social e de todas as informações digitais associadas que cercam o local, o dispositivo, o comportamento móvel, o pagamento via celular, plataforma e velocidade relacionada aos dados de comentário.


Mineração de texto e métodos de semântica

Uma vez que a mídia social gera muitos dados do consumidor, como as marcas podem transformar os dados brutos de comentários da mídia social (Twitter, Facebook, blogs e fóruns) em insights de negócios acionáveis? A resposta está no aplicativo de mineração de texto e tecnologia de semântica a essas novas fontes de dados não estruturados.

Mineração de texto se refere às técnicas usadas na extração de informações de fontes escritas diferentes. Por que isso é tão importante? É amplamente estimado que 80% de todas as informações relevantes aos negócios estejam em dados de texto não estruturados e semiestruturados. Em outras palavras, sem a aplicação de análise de texto para descobrir a riqueza de dados representada nesses 80%, todas as informações de negócio integradas e dados de comportamento do consumidor se perdem. O termo mineração de texto, normalmente chamado de análise de texto, tem muitas finalidades práticas, como filtragem de spam, extração de informações de sugestões e recomendações em sites de e-commerce, a escuta social e a mineração de opinião de blogs e sites de resenha, aprimoramento do atendimento ao cliente e suporte por email, processamento automatizado de documentos de negócio, e-discovery no campo jurídico, medição da preferência do consumidor, análise de solicitações e detecção de fraude, e aplicativos de segurança nacional e contra cibercrimes.

A mineração de texto é parecida com a mineração de dados por estar voltada à identificação de padrões interessantes nos dados. Embora fosse manual (e muito trabalhosa) a mineração de texto surgiu nos anos 1980. O campo de mineração de texto se tornou importante nos anos recentes por refinar os algoritmos do resultado do mecanismo de pesquisa e separar as fontes de dados para descobrir essencialmente informações desconhecidas. Técnicas como aprendizado com máquina, estatísticas, linguística computacional, e mineração de dados são empregadas no processo. A meta da descoberta de conhecimento a partir do texto, por exemplo, é detectar relacionamentos de semântica subjacentes a partir do texto além de conteúdo e contexto implícito com Natural Language Processing (NLP). Os processos são voltados para o uso de NLP para replicar e escalar o mesmo tipo de distinção linguística, reconhecimento de padrão e compreensão resultante que ocorre quando os humanos leem e processam o texto.

Há diversos métodos no campo de mineração de texto. Veja a seguir uma lista de etapas comuns e sequenciais envolvidas na mineração de texto.

A primeira etapa em qualquer iniciativa de mineração de texto é identificar as fontes baseadas em texto a serem analisadas e coletar esse material por meio da recuperação de informações ou seleção do corpus que compõe o conjunto de arquivos textuais e conteúdo de interesse. Ocorre uma implementação extensa de NLP invocando "parte da identificação do discurso" e sequência de texto para analisar a sintaxe (ou seja, conversão em token do texto) e aplicação de Reconhecimento de entidade nomeada (ou seja, identificação da menção de marcas, nomes de pessoas, locais, abreviações comuns etc.). Uma etapa interativa de Filtro de palavras proibidas envolve a remoção de palavras proibidas a fim de refinar o conteúdo desejado em tópicos. Entidades de padrão identificado reconhecem endereços de email e números de telefone e Correferência identifica locuções substantivas e objetos relacionados no texto, seguido por Extração de relacionamento, fato e evento. N-Grams são gerados com frequência e criam termos como uma série de palavras consecutivas. Por fim, análise de sentimento, uma abordagem atualmente usada amplamente por ferramentas de escuta de mídia social e de categorização, que é realizada para extrair informações sobre atitudes com relação ao objeto ou tópico. Frequentemente, diversas funções de mapeamento e argumentação fornecem visualização para validação adicional da precisão.


Ferramentas de mineração de texto

Já diversas opções comerciais e de código aberto para software e aplicativos de mineração de texto. A IBM oferece uma variedade ampla e robusta de soluções de mineração de texto. Uma oferta eficiente que aproveita os grandes recursos de dados do IBM® InfoSphere® BigInsights™, fornece um módulo complementar de análise de texto que executa a extração de análise de texto do cluster do InfoSphere BigInsights. As ofertas do IBM SPSS® variam de escala e escopo. Uma ferramenta que funciona bem para pesquisar um documento e atribui-lo a um tópico e um assunto é o IBM SPSS Modeler, que fornece uma interface gráfica para execução de classificação de documento de texto e análise genéricas. Outro produto, o IBM SPSS Text Analytics for Surveys, usa NLP e é útil para análise de perguntas de pesquisa abertas em um documento. O IBM SPSS Modeler Premium é executado no mesmo mecanismo que o SPSS Text Analytics for Surveys, mas é altamente escalável para lidar com um corpus inteiro de documentos (PDF, páginas da web, blogs, emails, feeds do Twitter e mais) em um ambiente de trabalho sofisticado que também facilita a integração entre dados estruturados e não estruturados. Um nó de código fonte personalizado relacionado para Facebook amplia os recursos do SPSS Modeler Premium para ler dados diretamente de um mural do Facebook e integrá-lo ao feed do Twitter no SPSS Modeler a fim de obter uma perspectiva de canal de mídia multissocial.

Das ferramentas de mineração de texto de código aberto, RapidMiner e R parecem ser as duas mais populares. R tem uma base de usuários mais ampla; uma linguagem de programação na qual o código fonte é exigido, tem uma grande seleção de algoritmos. No entanto, a escalabilidade é um problema com o R, por isso não é ideal para grandes conjuntos de dados sem soluções. RapidMiner tem uma base de usuários menor, mas não exige código fonte e tem uma interface de usuário eficiente (UI). Também é altamente escalável e pode lidar com clusters e programação no banco de dados. A IBM oferece um módulo Jaql R que integra o projeto R em consultas, que, por sua vez, permite que trabalhos do MapReduce funcionem em computações do R em paralelo.


Repositórios de dados de mídia social e big data

Opções de NoSQL e SQL

Um comentário breve sobre as opções NoSQL e Structured Query Language (SQL) e o processo de seleção de pilha de tecnologia. Quando as fontes de dados se tornam indesejadas, como ocorre frequentemente com dados de mídia social, faz-se necessária uma combinação de opções comerciais de NoSQL (como IBM InfoSphere BigInsights) que integram de forma eficiente ao Hadoop e a outras ferramentas de código aberto de extensão de recursos. Bancos de dados de gráfico e armazenamentos de valor de chave e documentos são disponibilizados e a melhor seleção tem base no caso de uso principal. As empresas interessadas em mineração de texto e análises normalmente selecionam o Hadoop e integram com outras ferramentas de código aberto como Apache Mahout, um mecanismo de aprendizado automático que fornece classificação, cluster e filtragem colaborativa. Tuplas e fluxos da Storm gerenciam análises em tempo real que navegam pela alta latência do Hadoop.

Há desafios exclusivos ao aplicar a mineração de texto aos dados de mídia social. Os dados gerados por sites de rede social, blogs e fóruns se enquadram na categoria do que é normalmente chamado de big data. Os dados são não estruturados e semiestruturados, petabytes são gerados diariamente em torno de marcas maiores, e bancos de dados tradicionais relacionais não podem escalar de forma eficiente a fim de suportar a análise em tempo real com base nos dados. As soluções de banco de dados Big data e NoSQL são, portanto, necessárias.

Os dados de mídia social, se não forem coletados e armazenados adequadamente em intervalos regulares, são essencialmente perecíveis. A maioria das ferramentas de escuta social de código aberto armazenam apenas alguns dias de histórico de comentários de mídia social. Apenas recentemente, o Twitter anunciou que um histórico completo de dados será disponibilizado, mas será limitado aos comentários postados especificamente pelo proprietário da conta. Esses dados ficam disponíveis em alguns dos maiores provedores de dados sociais mencionados acima, como Gnip e DataSift, e por meio de application programming interfaces (APIs) baseadas em volume e chamada por meio de outras ferramentas. No entanto, o local onde está disponível (para Twitter), é muito caro para todos com exceção das marcas maiores.

Cada site de mídia social lida com esse problema de forma diferente. É possível usar as solicitações de pesquisa e apresentar respostas no formato JavaScript Object Notation (JSON) contendo dados não analisados para inclusão imediata em um banco de dados MySQL ou NoSQL, dependendo do volume e da natureza dos dados.


Casos de uso de negócio para mineração de texto

As marcas têm objetivos diferentes com o exercício de mineração de texto:

  • Uma empresa como a Sears, no Exemplo 1, pode estar interessada em rastrear o sentimento do consumidor por meio de comentários nas mídias sociais e interações na fan page do Facebook diretamente após o lançamento de uma nova linha de produto. Dessa forma, é possível entender o sentimento básico que envolve imagens, produtos e os clusters de conversa que ocorrem em torno do lançamento do produto. Esse feedback em tempo real permite atualizações e remoções rápidas de mensagem de conteúdo não popular e os fãs do Facebook se tornam um grupo com foco em tempo real, fornecendo feedback imediato sobre os recursos do produto.
  • Uma empresa como a JACT Media atua no nicho de mercado de relacionamentos entre marcas e jogadores de videogame. Ela possui uma sobreposição no jogo que permite aos jogadores jogarem seus jogos regulares enquanto exibem diversos conteúdos direcionados e agendados aos jogadores. Os jogadores recebem a moeda virtual JACT, e esses JACT BUX podem ser trocados por recompensas, incluindo produtos virtuais e baixáveis. Os jogadores interagem com a JACT na página do Facebook ou no Twitter e mencionam a JACT BUX frequentemente em fóruns de jogos. Esses dados brutos de comentário podem ser colhidos de diversas fontes, e comentários individuais e preferências podem ser armazenados. Por exemplo, se um jogador estiver empolgado sobre um videogame específico ou tweets sobre sua recompensa, é mais provável que o direcionamento no jogo com base em tipos específicos de jogo e recompensa gere uma lealdade maior do que ofertas aleatórias.
  • Supermercados podem usar dados de mídia social para identificar comprados mais valiosos, impressões de atendimento ao cliente, atmosfera de armazenamento, preferência de produto, preferência de embalagem e preço. Mesclando esse tipo de informação com dados de local fornecidos pelo Twitter ou por dispositivos móveis, os supermercados podem personalizar a experiência de compra de uma perspectiva de localização. Isso tem implicações para inventário, preço, publicidade, ofertas de cupom digitais individuais e por mala direta e muito mais.

Exemplo 1: dados de mídia social e mineração de texto no SPSS Modeler Premium

O primeiro exemplo mostra um caso de uso para o SPSS Modeler Premium. Nesse cenário, uma nova linha de produtos é lançada e a empresa está interessada em rastrear a resposta do consumidor nos dados de mídia social. O nó SPSS Modeler Premium Facebook é usado para rastrear essa nova linha de produtos Kardashian na página Sears Facebook, exibida na Figura 1.

Figura 1. Varejista lança uma nova linha de produto no Facebook
Varejista lança uma nova linha de produto no Facebook

A primeira etapa no rastreamento e análise de dados de comentário envolve a especificação de um nome de usuário e número de páginas e encadeamento para revisão no nó SPSS Modeler Premium Facebook, exibido na Figura 2.

Figura 2. SPSS Modeler usado para extrair comentários do mural do Facebook a fim de identificar análise de feedback do comentário posterior ao lançamento
SPSS Modeler usado para extrair comentários do mural do Facebook a fim de identificar análise de feedback do comentário posterior ao lançamento

Os dados de comentário são extraídos da página Sears Facebook e disponibilizados para uso no SPSS Modeler, como mostra a Figura 3.

Figura 3. Os dados brutos de comentário podem ser exibidos diretamente por meio do nó SPSS Modeler Facebook
Os dados brutos de comentário podem ser exibidos diretamente por meio do nó SPSS Modeler Facebook

(Veja uma versão ampliada da Figura 3.)

A próxima etapa envolve a adição de filtros e a execução da extração do conceito, resultando em uma visualização que retrata as categorias de conteúdo relacionadas à marca. A UI gráfica fácil de usar orienta o usuário pelo processo, e nenhuma API é necessária para extrair os dados sociais do Twitter ou do Facebook. O resultado é um mapa de conceitos fácil de entender e sensibilidade para retratar o conceito dos clusters representados pela grossura da linha de conexão, como mostra a Figura 4.

Figura 4. O Mapa de conceito fornece visualização de categorias de força de conceito para a marca.
O Mapa de conceito fornece visualização de categorias de força de conceito para a marca.

(Veja uma versão ampliada da Figura 4..)

Exemplo 2: exemplo de preferência de produto de supermercado usando extração e palavras proibidas no SPSS Statistics Base

O seguinte processo de montagem de repositórios de mídia social descreve um processo manual simples de mineração de texto. Nesse exemplo, estamos interessados no uso de mineração de texto por meio do SPSS Statistics Base para gerar e armazenar preferência de produto individual a partir dos dados de mídia social. O exemplo inclui um guia em etapas para extração de dados de marca de supermercado do Twitter e do Facebook. A arquitetura do processo é representada na Figura 5.

Figura 5. A arquitetura de repositório de mídia social do BrandMeter
A arquitetura de repositório de mídia social do BrandMeter

(Veja uma versão ampliada da figura 5.)

A primeira etapa é identificar as marcas de interesse. Uma rotina é configurar a coleta de menções relacionadas à marca por meio do processo de uma API. Isso é feito com solicitações de pesquisa como aquelas retratadas na Figura 6, e os resultados são retornados no formato JSON. Uma biblioteca JSON analisa os dados, e cada registro é dividido em diversos campos contendo informações como ID do usuário, dados e comentário em mensagem textual não processada. Esses dados são armazenados em um banco de dados e disponibilizados para mineração de texto.

Figura 6. Amostra de API para acessar dados brutos de comentários do Twitter e do Facebook
Amostra de API para acessar dados brutos de comentários do Twitter e do Facebook

(Veja uma versão ampliada da figura 6.)

O objetivo deste exercício de mineração de texto simplificado é identificar preferências de produto do consumidor específicas e padrões de consumo. Essas informações são armazenadas em um repositório de dados de mídia social. Para esse exemplo específico, suponha que você deseja identificar todos os clientes que são consumidores do milho vegetal. A Figura 7 mostra o uso da função Character Index, que identifica todas as instâncias da palavra milho nos dados brutos de comentário.

Figura 7. Extraindo texto com a função Character Index do SPSS Base
Extraindo texto com a função Character Index do SPSS Base

(Veja uma versão ampliada da figura 7.)

O resultado exige mais filtragem, e as palavras proibidas são aplicadas por meio de várias iterações a fim de aprimorar a precisão da classificação. Ao aplicar palavras de parada como pipoca, doce de milho, salsicha, e xarope de milho e limitando a instância a uma combinação de quatro caracteres, uma identificação muito mais precisa dos resultados de consumidores de produto de milho. Esses nomes de usuário podem ser sinalizados com um 'corn_consumer_flag'=1 no banco de dados e selecionados para ofertas e receitas específicas a milho em campanhas de marketing futuras. (Consulte Figura 8.)

Figura 8. processo de classificação de comentário bruto usando palavras de parada
processo de classificação de comentário bruto usando palavras de parada

(Veja uma versão maior da figura 8)..)

Ao passar por uma lista grande, é possível executar a agregação de ID do usuário e preencher tabelas a fim de capturar compras de produto, comentários sobre empacotamentos e outras variáveis que armazenam comportamentos do consumidor no nível individual. Nesse exemplo, os dados brutos de mídia social são armazenados em um banco de dados NoSQL e as sinalizações derivadas de preferência de produto são armazenadas em um repositório de dados MySQL, no ID do usuário é uma chave de correspondência primária (consulte a Figura 9).

Figura 9. Agregando dados de comentário ao nível de ID do usuário com a função Aggregate de SPSS Base
Agregando dados de comentário ao nível de ID do usuário com a função Aggregate de SPSS Base

(Veja uma versão ampliada da figura 9..)


Conclusão

A mineração de texto está ganhando popularidade à medida que muitas empresas se esforçam para avaliar o possível retorno do investimento em mídia social como um canal de marketing e interação com a marca. As empresas estão correndo para implementar soluções de armazenamento de big data a fim de hospedar dados não estruturados e integrá-los com dados tradicionais de tipo de transação. Comentários de mídia social e dados de interação relacionados à marca oferecem uma riqueza de insights sobre as preferências do consumidor individual, que podem ser usados para projetar recursos de produto relevantes, realizando o marketing de uma maneira que estará de acordo com os desejos e expectativas do consumidor. Ao armazenar esses dadosde preferência e comportamento individuais em repositórios de dados de mídia social, para a finalidade de uma personalização mais avançada da experiência com a marca, a empresa tem em mãos uma informação valiosa, que poderá ser usada para enriquecer o relacionamento consumidor-marca e promover a participação dos consumidores no autogerenciamento de suas próprias experiências com a marca.

Recursos

Aprender

Obter produtos e tecnologias

  • InfoSphere BigInsights é o ponto de partida para aprender e trabalhar com big data. Faça o download da Basic Edition sem custo.
  • Software de avaliação: encontre mais softwares para avaliação, incluindo vários produtos SPSS. faça o download de uma versão de teste, trabalhe com o produto em um ambiente Sandbox ou acesse-o na nuvem.
  • SPSS Modeler é um ambiente de trabalho de mineração de dados da IBM. Escolha a versão certa para suas necessidades.
  • SPSS Text Analytics for Surveys analisa o texto de pesquisa a fim de extrair insights do consumidor.
  • Storm: confira esse novo sistema de computação em tempo real.
  • KDnuggets fornece uma lista completa de ferramentas de mineração de texto de código aberto.

Discutir

Comentários

developerWorks: Conecte-se

Los campos obligatorios están marcados con un asterisco (*).


Precisa de um ID IBM?
Esqueceu seu ID IBM?


Esqueceu sua senha?
Alterar sua senha

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


A primeira vez que você entrar no developerWorks, um perfil é criado para você. Informações no seu perfil (seu nome, país / região, e nome da empresa) é apresentado ao público e vai acompanhar qualquer conteúdo que você postar, a menos que você opte por esconder o nome da empresa. Você pode atualizar sua conta IBM a qualquer momento.

Todas as informações enviadas são seguras.

Elija su nombre para mostrar



Ao se conectar ao developerWorks pela primeira vez, é criado um perfil para você e é necessário selecionar um nome de exibição. O nome de exibição acompanhará o conteúdo que você postar no developerWorks.

Escolha um nome de exibição de 3 - 31 caracteres. Seu nome de exibição deve ser exclusivo na comunidade do developerWorks e não deve ser o seu endereço de email por motivo de privacidade.

Los campos obligatorios están marcados con un asterisco (*).

(Escolha um nome de exibição de 3 - 31 caracteres.)

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


Todas as informações enviadas são seguras.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=80
Zone=Information Management, Segmentos de mercado
ArticleID=842044
ArticleTitle=Desenvolva Repositórios de Dados de Mídia Social Usando Ferramentas de Mineração de Texto SPSS
publish-date=10232012