#Transformação Digital com Chatbots

Comparando motores cognitivos (Parte 3)

Compartilhe:

De te​mpos em tempos, convidamos parceiros e clientes para compartilhar suas opiniões e percepções sobre as tendências atuais de tecnologia e soluções IBM no Blog de Transformação Digital. As opiniões nessas postagens são próprias e não refletem, necessariamente, as opiniões da IBM.

Espero que tenha aproveitado o checklist do artigo anterior e tenha separado algumas plataformas para avaliarmos. Neste episódio, vou contar um pouco sobre a metodologia que usei para realizar o experimento entre elas. Vamos lá?

Ei, psiu!

Este artigo é parte da série #Transformação Digital com Chatbots. Acompanhe a tag para ficar por dentro das próximas publicações.

Na parte dois da nossa série, passamos por um checklist para você selecionar algumas opções de plataformas para desenvolver seu Assistente Virtual. Agora chegou a hora de avaliar se a capacidade do motor cognitivo dessas plataformas possui diferenças.

A título comparativo, separei três dessas plataformas: Watson Assistant, da IBM, Plataforma A e Plataforma B, e realizei um experimento considerando a parte cognitiva mais relevante: a Intenção.

Foi considerada como variável a resposta qualitativa dicotômica: se o treinamento realizado na plataforma foi capaz de acertar ou não a classificação da interação do conjunto de teste, de acordo com o padrão ouro (ground truth) classificado pelo humano.

Os dois resultados possíveis foram classificados em 1 (se acertou) e 0 (se não acertou), para as classificações diferentes do ground truth como primeira intenção classificada.

Apesar das plataformas considerarem a confiança para poder classificar a iteração enviada do conjunto de teste, não foi tratado neste experimento a diferença entre as confianças de cada classificação.

Como fator principal, foi considerada a plataforma, com três níveis, Watson Assistant da IBM, Plataforma A e Plataforma B.

O fator dois foi a Classe da Intenção, com dois níveis: genérico e específico – sendo o nível genérico composto por três intenções e o específico por duas.

Para o tipo de intenção foi considerado o terceiro fator avaliado, e contou com cinco níveis. Os exemplos de cada intenção e a descrição de cada nível estão presentes no esquema a seguir.

Genéricas

São intenções que podem ser utilizadas em qualquer contexto, independente do domínio de negócio existente. Para esse grupo, foram criadas três intenções com 30 exemplos em cada, são elas:

1) Agradecer: alguns exemplos são, “obrigado por tudo”, “ok, obrigada”, “por ora não, obrigado”, “tenha um bom dia e obrigada”, “tenha uma boa tarde, valeu!”, “Tudo bem, obrigado”, etc.;

2) Cumprimentar: “como está?”, “como vai?”, “ei, como vai?”, “oi, boa noite”, “olá, boa tarde”, “Tudo joia?”, “olá, tudo bem?”, “Tudo bem?”, etc.;

3) Xingar: “atendimento é uma porcaria!”, “péssimo atendimento”, “Atendimento virtual é horrível!”, “Está me tirando do sério”, “devo estar falando grego”, “nada que eu peço aqui sou atendida”, “não gosto de você”, entre outros.

Específicas

São intenções criadas em um domínio específico, por exemplo, para o setor de comércio de bens duráveis. Dentro desse domínio existem vários contextos, como comercial, financeiro, marketing, etc. Nesse experimento, foi utilizado o contexto financeiro, com as intenções para a solicitação de segunda via de boleto e renegociar uma dívida. Cada uma das intenções teve 50 exemplos:

1) Solicitar segunda via: alguns exemplos são: “boletos de fevereiro para pagamento”, “código de barras do boleto vencimento”, “conseguir outro boleto atualizado por aqui”, “estou querendo imprimir um boleto tanto pelo site como pelo aplicativo”, “estou querendo pagar a parcela do mes de maio”, etc.;

2) Renegociar: alguns exemplos são “com algumas parcelas em atraso simular uma renegociação do meu contrato”, “com atraso em alguns pagamentos, mas não tenho a condição de pagar tudo no momento”, “como faço para renegociar minhas dívidas”, “como fazer para parcelar minhas faturas vencidas”, “negociar duas parcelas”, entre outros.

Nota-se que os cinco níveis do fator “Tipo de Intenção” puderam ser agrupados nos dois níveis do fator “Classe de Intenção” – Genérica e Específica. Sendo assim, para a análise dos dados do experimento, foram ajustados os modelos de regressão logística em separado para cada um dos dois fatores.

Conjunto de teste

Para cada um dos cinco tipos de intenções criadas, existe um conjunto de 30 interações, das quais não foram inseridas no conjunto de treinamento das intenções como exemplos. Todas essas interações foram classificadas manualmente por humanos, sendo esse considerado o padrão ouro (ground truth), que será usado para avaliar a classificação de cada uma das plataformas.

Quais hipóteses podemos levantar do experimento?

– Hipótese nula principal: não existem diferenças dos motores cognitivos das plataformas Watson Assistant, Plataforma A e Plataforma B quanto ao acerto nas classificações das intenções.

– Hipótese nula secundária: não existem diferenças da classe ou do tipo de intenção quanto ao acerto nas classificações das intenções.

Para estudar o comportamento e diferença entre os fatores e níveis, foi utilizado a regressão logística.

Neste episódio, falamos sobre a metodologia de comparação entre três plataformas distintas. No quarto e último episódio, falaremos sobre os resultados dessas comparações. Não perca!

Um abraço e até a próxima!

Vamos conversar?

A IBM é líder de mercado em soluções e projetos de IA.
Qual o problema do seu negócio que iremos solucionar juntos?

Entre em contato com um representante da IBM

Head of Artificial Intelligence at MRV

Leia mais sobre

Fluxos de trabalho inteligentes na nuvem: Tribanco

Tribanco se alia à IBM para agilizar serviços aos clientes com a criação de fluxos de trabalho inteligentes na nuvem. Com Inteligência Artificial nos processos, as áreas administrativa e financeira do banco serão transformadas em operações de negócios ágeis. A transformação digital é algo que não tem mais volta e agora está chegando com bastante […]

Inteligência Artificial além dos assistentes virtuais

Em nosso segundo encontro, o Dose de Dados propõe um papo com experts da IBM para explorar as aplicações da Inteligência Artificial para além dos assistentes virtuais. Saiba como podemos trabalhar a geração de insights aplicando a Inteligência Artificial em mecanismos de descoberta com processamento de linguagem natural. O #Dose de Dados é um projeto […]

Como fazer a curadoria do assistente virtual

No primeiro #Encontro Dose de Dados, respondemos às perguntas mais comuns de diversas áreas das empresas sobre o desenvolvimento e curadoria do assistente virtual. O #Dose de Dados é um projeto que está gerando e trazendo os conteúdos mais diversos sobre dados e inteligência artificial de forma periódica e por diferentes canais: newsletter semanal, podcasts […]