O que é resposta a perguntas?

Vista aérea de dois grandes veleiros e contêineres

Autores

Tim Mucci

IBM Writer

Gather

O que é resposta a perguntas?

Respostas a perguntas (QA) é um ramo da ciência da computação dentro do processamento de linguagem natural (PLN) e da recuperação de informações dedicado ao desenvolvimento de sistemas capazes responder a perguntas expressas em linguagem natural com linguagem natural. Esses sistemas determinam o contexto por trás das perguntas, extraem informações relevantes de grandes quantidades de dados e as apresentam ao usuário de forma concisa e legível.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Tipos de respostas a perguntas

Os sistemas de resposta a perguntas podem ser categorizados com base na maneira como geram respostas às perguntas do usuário, no escopo de conhecimento que têm e nos tipos de perguntas ou modalidades que atendem.

Respostas extrativas e generativas a perguntas

Os sistemas de QA extrativo trabalham identificando e extraindo respostas diretamente das fontes de texto ou dados fornecidas. Utilizam técnicas como named entity recognition e previsão de intervalo para localizar segmentos de texto específicos que respondem a uma pergunta específica.

Por exemplo, um sistema de controle de qualidade extrativo pode ser solicitado a identificar a população de um país em um documento.

Por outro lado, os sistemas generativos de controle de qualidade sintetizam suas próprias respostas com o conhecimento aprendido durante o treinamento. Esses sistemas não se limitam a extrair informações literalmente, mas geram respostas criativas e diferenciadas, muitas vezes utilizando grandes modelos de linguagem (LLMs).

Um exemplo bem conhecido de controle de qualidade generativo é o GPT-3 ou ChatGPT da OpenAI, gerado por inteligência artificial generativa (IA generativa).

Respostas a perguntas de domínio aberto e de domínio fechado

Outra maneira de classificar os sistemas de controle de qualidade é pelo escopo de conhecimento em que atuam. Os sistemas de QA de domínio aberto são projetados para lidar com perguntas sobre praticamente qualquer assunto.

Confiam no vasto conhecimento geral e utilizam frameworks como ontologias para recuperar e organizar informações de forma eficaz. Esses sistemas são ideais para aplicações que exigem ampla versatilidade, como assistentes virtuais ou mecanismos de busca.

No entanto, os sistemas de controle de qualidade de domínio fechado se especializam em áreas específicas, como medicina, direito ou engenharia. Utilizam o conhecimento específico do domínio para apresentar respostas detalhadas e precisas adaptadas à sua área.

Por exemplo, um sistema de QA médica de domínio fechado pode auxiliar os médicos respondendo a perguntas de diagnóstico com base em dados clínicos.

Sistemas de resposta de perguntas de livro fechado e livro aberto

Os sistemas de QA também podem ser categorizados como livro fechado ou livro aberto, dependendo de como acessam e utilizam as informações. Os sistemas de livro fechado dependem inteiramente do conhecimento memorizado durante o treinamento e não se referem a fontes externas.

Por exemplo, o GPT-3 pode apresentar respostas sem acesso aos dados em tempo real. Entretanto, os sistemas de livro aberto podem acessar bases de conhecimento externas ou fontes de dados durante a operação, possibilitando que apresentem respostas atualizadas e contextualmente relevantes. Os sistemas de controle de qualidade integrados ao mecanismo de pesquisa são um exemplo comum de sistemas de livro aberto.

Sistemas conversacionais, matemáticos e visuais

Sistemas de controle de qualidade especializados são projetados para tipos específicos de input ou interação. Os sistemas de controle de qualidade conversacional podem manter o contexto em vários momentos de uma conversa, permitindo trocas coerentes e naturais. Isso os torna adequados para chatbots e assistentes virtuais, onde continuidade e contexto são essenciais.  

Os sistemas de controle de qualidade matemáticos, por outro lado, concentram-se em responder a perguntas que exigem raciocínio e cálculos matemáticos. Esses sistemas precisam entender notações matemáticas e realizar cálculos para apresentar respostas, como resolver equações ou aplicar fórmulas.

Os sistemas de QA visual são projetados para responder a perguntas sobre imagens, combinando PNL com técnicas de Computer Vision. Por exemplo, com a imagem de um carro, um sistema de controle de qualidade visual poderia analisar a imagem e responder a uma pergunta como: "Qual é a cor do carro?" O QA visual tem aplicações em áreas que incluem ferramentas de acessibilidade, legendas de imagens e mecanismos de pesquisa multimodal

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Conjuntos de dados

Os conjuntos de dados apresentam as informações brutas necessárias para treinar modelos, avaliar seu desempenho e medir os avanços no campo. Os conjuntos de dados de controle de qualidade geralmente consistem em perguntas emparelhadas com suas respostas correspondentes, geralmente extraídas de contextos específicos, como documentos, bases de conhecimento ou conjuntos de dados estruturados.

Os modelos de QA utilizam dados de treinamento de alta qualidade para associar perguntas a respostas apropriadas e identificar padrões no conjunto de dados. Esse processo permite que os modelos generalizem a partir dos exemplos que viram para novas perguntas não vistas.

Os conjuntos de dados também servem como referências que permitem que pesquisadores e profissionais comparem os recursos de diferentes modelos de controle de qualidade. Os modelos de linha de base são frequentemente utilizados como pontos de referência para medir a eficácia de sistemas novos ou avançados em relação aos padrões de desempenho estabelecidos.  

Diferentes conjuntos de dados são projetados para testar vários aspectos dos sistemas de controle de qualidade. Por exemplo, alguns conjuntos de dados avaliam a capacidade de um sistema de responder a perguntas derivadas de uma ampla gama de fontes, enquanto outros se concentram na compreensão de perguntas complexas ou ambíguas.

Certos conjuntos de dados testam o raciocínio com múltiplos saltos, onde o sistema deve integrar informações de vários documentos ou seções para chegar a uma resposta. Alguns conjuntos de dados incluem até perguntas sem resposta, modelos desafiadores para criar uma resposta quando não há resposta entre as fontes.

A disponibilidade de conjuntos de dados diversos e cuidadosamente construídos avançou consideravelmente no campo da QA. Ao apresentar sistemas com desafios cada vez mais complexos e variados, esses conjuntos de dados incentivaram o desenvolvimento de modelos mais sofisticados e robustos capazes de lidar com uma ampla gama de cenários do mundo real.

Medindo o desempenho dos sistemas de QA

As métricas de avaliação oferecem uma maneira padronizada de medir o desempenho, permitindo que os desenvolvedores identifiquem áreas de melhoria e refinem seus modelos. Oferecendo insights objetivos e quantificáveis, essas métricas vão além de avaliações subjetivas e ajudam a esclarecer a eficácia de um sistema de QA para responder às perguntas.

As métricas desempenham um papel fundamental na identificação dos pontos fortes e fracos de um sistema de controle de qualidade e orientam os desenvolvedores a concentrar seus esforços na melhoria de aspectos específicos de seus sistemas.

Usando benchmarks consistentes como o Stanford Question Answering Dataset (SQuAD), os pesquisadores podem avaliar como seus modelos se comparam a outros no campo. Esses benchmarks não somente promovem a justiça nas comparações como também acompanham o progresso e destacam as técnicas mais eficazes para o avanço da Tecnologia de QA.

As métricas de avaliação ajudam a evitar o sobreajuste, um desafio comum no aprendizado de máquina. Testando modelos em conjuntos de dados separados, os desenvolvedores podem confirmar que seus sistemas generalizam bem para dados novos e não vistos, em vez de memorizarem o conjunto de treinamento.

Além disso, as métricas podem destacar as limitações dos sistemas atuais. Por exemplo, o baixo desempenho de um modelo pode sinalizar áreas que exigem mais pesquisa. Essa busca constante por melhores pontuações incentiva o desenvolvimento de modelos de QA mais avançados capazes de lidar com tarefas e conjuntos de dados cada vez mais complexos.

Confiabilidade é outro foco crítico das métricas de avaliação. Proporcionam um meio para validar a precisão das respostas de um sistema de QA e minimizar os erros. As métricas também orientam o desenvolvimento iterativo de modelos, oferecendo feedback sobre o desempenho de um sistema e ajudando os desenvolvedores a ajustar seus componentes para obter resultados ótimos.

Diversas métricas atendem a diversas necessidades dentro dos sistemas de QA. Por exemplo, algumas métricas se concentram em correspondências exatas entre respostas, enquanto outras avaliam o grau de sobreposição entre as respostas previstas e reais.

Essas distinções ajudam a garantir que o processo de avaliação seja adaptado aos requisitos específicos de várias tarefas e modelos de controle de qualidade.

  • Correspondência exata (EM): essa métrica verifica se a resposta prevista corresponde exatamente à resposta correta. É uma métrica rigorosa que oferece uma boa maneira de ver se um modelo consegue dar uma resposta correta.
  • Pontuação F1: A pontuação F1 é uma medida equilibrada que considera tanto a precisão (quantas respostas previstas estão corretas) quanto a lembrança (quantas respostas corretas são encontradas). Apresenta uma pontuação única que reflete a precisão geral de um modelo, contabilizando falsos positivos e falsos negativos, tornando-o mais sutil do que a correspondência exata (EM) que verifica somente correspondências perfeitas.
  • Relevância: dependendo da arquitetura e da recuperação do sistema, um modelo pode avaliar o nível de confiança de que um determinado documento é relevante para uma consulta.

No entanto, as métricas existentes podem não captar totalmente as complexidades de entender e responder às perguntas de forma eficaz.

  • Compreensão contextual: embora as métricas possam medir se um modelo dá uma resposta correta, nem sempre mostram o quão bem um sistema entende a totalidade de uma pergunta.
  • Raciocínio e síntese: Algumas tarefas de resposta a perguntas exigem raciocínio e síntese de informações de diversas partes de um texto, o que pode ser difícil de avaliar com o uso de métricas simples.
  • Subjetividade: algumas perguntas podem ter mais de uma resposta correta. A avaliação desses tipos de perguntas pode ser subjetiva.
  • Sem resposta: em alguns conjuntos de dados, há perguntas que não podem ser respondidas com base nas informações específicas e os sistemas precisam reconhecer isso. As métricas foram desenvolvidas para levar em conta as perguntas sem respostas.
  • Palavras fora do vocabulário: as métricas podem não capturar totalmente o desempenho dos sistemas que lidam com palavras que não estão no vocabulário do sistema.

Apesar desses desafios, as métricas de avaliação ainda são essenciais para avaliar a eficácia dos sistemas de garantia de qualidade. Eles ajudam os desenvolvedores a determinar o quão bem um sistema responde às perguntas e identificar áreas de melhoria. Como os modelos de QA são treinados com dados gerados por humanos, quaisquer imprecisões ou vieses nos dados podem levar a respostas tendenciosas, mesmo que o modelo tenha uma pontuação alta nas métricas de avaliação.

Outra preocupação é a possibilidade de os modelos "trapacearem" ao fazerem exploração de vieses estatísticos em conjuntos de dados. Por exemplo, um modelo pode aprender a associar palavras-chave específicas em uma pergunta com um determinado intervalo de respostas sem entender realmente a consulta.

Para lidar com essa questão, alguns conjuntos de dados contêm perguntas escritas sem permitir o acesso ao texto de origem correspondente durante sua criação. Essa abordagem reduz a probabilidade de os modelos se basearem em padrões superficiais em vez de compreensão significativa.

Desafios nos sistemas de resposta a perguntas

Os sistemas de resposta a perguntas enfrentam vários desafios operacionais que afetam sua eficácia. Um grande obstáculo é entender o significado e a intenção por trás de uma pergunta. Isso envolve não somente interpretar as palavras como também discernir o propósito da pergunta, mesmo quando é formulada de forma ambígua ou pouco clara.

Os sistemas de controle de qualidade devem lidar com estruturas de linguagem complexas, distinguir entre palavras ou frases com sons semelhantes e reconhecer variações sutis de significado.

As perguntas podem ser formuladas de várias maneiras, apresentadas como consultas com várias frases ou não ter clareza explícita, exigindo recursos de compreensão da linguagem natural.

Outro desafio considerável está na recuperação eficiente de informações relevantes de grandes quantidades de dados. Os sistemas de controle de qualidade devem empregar técnicas sofisticadas de recuperação de informações, como análise semântica e extração de informações, para identificar fontes pertinentes e identificar respostas específicas.

O grande volume de dados que esses sistemas processam, muitas vezes abrangendo conjuntos de dados maciços, aumenta a complexidade do gerenciamento desses sistemas.

Os sistemas de controle de qualidade também precisam de mecanismos robustos para representar e organizar o conhecimento. Técnicas como ontologias e redes semânticas possibilitam que os modelos categorizem e relacionem conceitos, melhorando sua capacidade de entender como as palavras e as ideias se conectam em uma frase ou em um conjunto de dados.

A tokenização de palavras, por exemplo, divide o texto em unidades menores e analisáveis, ajudando os sistemas a entender melhor as relações entre palavras e seus contextos.

O raciocínio contextual apresenta outra camada de complexidade. Além de entender a pergunta em si, os sistemas de QA devem considerar o contexto mais amplo, sintetizando informações de várias fontes ou documentos para apresentar respostas apropriadas.

Isso exige modelos para avaliar as relações entre pontos de dados e extrair conclusões significativas com base em suas interconexões.

Finalmente, verificar a precisão das respostas é essencial para os sistemas de QA. Eles devem avaliar criticamente a confiabilidade de suas fontes e levar em conta possíveis vieses nos dados.

Isso envolve o cruzamento de informações, a identificação de inconsistências e a garantia de que as respostas sejam fundamentadas em evidências críveis. 

Aplicações de sistemas de QA

As aplicações dos sistemas de QA são diversas, abrangendo setores e casos de uso, com foco na automatização da recuperação de informações e na apresentação de respostas rápidas e precisas a consultas de linguagem natural.  

Uma aplicação proeminente é o atendimento ao cliente, onde os sistemas de QA simplificam as operações automatizando respostas a perguntas frequentes utilizando uma base de conhecimento. Isso aumenta a eficiência e melhora a satisfação do cliente, apresentando respostas instantâneas e coerentes.

Da mesma forma, no suporte técnico, os sistemas de qualidade oferecem aos funcionários e clientes acesso imediato a informações relevantes, reduzindo os tempos de espera e aumentando a produtividade. Os assistentes virtuais também se beneficiam dos recursos, possibilitando que entendam e respondam às consultas dos usuários de forma mais eficaz por meio de linguagem natural.

Na pesquisa e na educação, os sistemas de QA geram relatórios, auxiliam na pesquisa e apoiam esforços de verificação de fatos. Esses sistemas ajudam os alunos apresentando respostas sob demanda a perguntas educacionais e oferecendo atendimento em tempo real.

São utilizados também em avaliações acadêmicas, como avaliação de trabalhos ou avaliação de respostas em provas universitárias, interpretando textos e apresentando respostas baseadas em informações específicas.

Nas funções de mecanismos de busca, os sistemas de controle de qualidade aprimoram as experiências do usuário ao apresentar respostas instantâneas diretamente relevantes às consultas do usuário. Em vez de simplesmente entregar uma lista de páginas da web relacionadas, os sistemas de busca modernos utilizam tecnologia para extrair informações específicas de documentos, oferecendo aos usuários respostas concisas e praticáveis.

Além disso, os sistemas de controle de qualidade são cada vez mais aplicados a tarefas organizacionais internas. Eles facilitam o processamento eficiente de informações em grandes repositórios de registros médicos, documentos bancários e registros de viagens.

Permitindo pesquisas rápidas e precisas por meio de dados estruturados e dados não estruturados, esses sistemas economizam tempo e melhoram a tomada de decisões em ambientes profissionais. 

Implementação de QA

A implementação de um sistema de controle de qualidade eficaz exige planejamento e execução cuidadosos em vários estágios, começando com a coleta e o processamento prévio de dados. Isso envolve a coleta de um corpo grande e diversificado de dados de texto de fontes como artigos de notícias, livros e bancos de dados.

Os dados devem ser limpos para remover conteúdo irrelevante, padronizados por meio de stemming ou lematização e tokenizados em palavras ou frases individuais. Às vezes, os anotadores humanos criam pares de perguntas e respostas ou traduzem conjuntos de dados existentes para outros idiomas.

Conjuntos de dados de alta qualidade gerados por humanos geralmente levam a um melhor desempenho do que os traduzidos por máquina, ressaltando a importância da qualidade do conjunto de dados.

A recuperação de informações é outro componente crítico de um sistema de controle de qualidade. São desenvolvidos algoritmos para extrair informações relevantes do corpo de texto em resposta às perguntas do usuário.

Técnicas como pesquisa por palavra-chave, classificação de texto e named entity recognition ajudam a restringir os documentos relevantes. Para otimizar a eficiência, os modelos de classificação de passagem podem priorizar documentos que provavelmente contêm a resposta antes de aplicarem um modelo de controle de qualidade mais intensivo em termos de computação.

Uma arquitetura comum é o pipeline recuperador-leitor, em que o recuperador identifica um subconjunto de documentos relevantes e o leitor extrai ou gera a resposta específica. A recuperação de passagens densas, que utiliza aprendizado profundo para recuperação, é uma abordagem promissora que melhora a velocidade e a precisão.

Outra consideração no design do sistema de QA é o tamanho da janela de contexto, que determina a quantidade de informações que um modelo pode processar de uma só vez. Por exemplo, modelos como o IBM® Granite-3, com uma janela de contexto de 128 mil tokens, podem lidar com documentos grandes com eficiência.

Processando conjuntos de dados extensos, os pipelines de recuperação-leitura desempenham um papel crucial, possibilitando que os sistemas filtrem documentos irrelevantes antes de extraírem respostas, mantendo assim a eficiência e a precisão.

Pesquisa e tendências atuais de controle de qualidade

As pesquisas e tendências atuais em sistemas de resposta a perguntas concentram-se no aprimoramento da capacidade de lidar com tarefas complexas e variadas e melhorar a eficiência e a robustez. Uma área importante de desenvolvimento é a resposta a perguntas de domínio aberto, em que os sistemas lidam com perguntas sobre praticamente qualquer tópico empregando ontologias gerais e conhecimento do mundo.  

O controle de qualidade multilíngue é outra tendência significativa, com modelos como o XLM-Roberta demonstrando a capacidade de lidar com vários idiomas simultaneamente, mantendo o desempenho no mesmo nível dos sistemas de um único idioma.

O desenvolvimento de sistemas de QA multilíngues é crucial para aplicações globais, possibilitando acessibilidade em diversos idiomas e comunidades.

Da mesma forma, o surgimento de sistemas de controle de qualidade multimodais marca uma mudança transformadora, possibilitando que os sistemas processem e integrem informações de texto, imagens e áudio.

Esses recursos são especialmente valiosos para tarefas de resposta a perguntas sobre o conteúdo de imagens ou vídeos, possibilitando uma compreensão mais abrangente e a capacidade de apresentar respostas mais ricas e sofisticadas.

Esforços também estão em andamento para melhorar as arquiteturas dos modelos para melhorar o desempenho e a eficiência. Os modelos baseados em transformadores, como o BERT, que dependem de um extenso treinamento prévio para capturar a compreensão das nuances do idioma, amplamente acessível por meio de plataformas como a Hugging Face, aprimoraram os sistemas de controle de qualidade aumentando consideravelmente a precisão, tornando-os viáveis para aplicações no mundo real.  

A pesquisa atual explora métodos para reduzir as demandas computacionais desses modelos por meio de técnicas como a destilação de modelos, que treina redes menores e mais eficientes para replicar o desempenho de modelos maiores.

Além disso, estão sendo projetados novos conjuntos de dados para desafiar ainda mais os sistemas de QA, introduzindo tarefas que exigem raciocínio em várias etapas, lidando com perguntas ambíguas ou sem resposta e abordando consultas mais complexas.

Os aprimoramentos dos métodos de recuperação são outra área de foco. Os sistemas modernos de controle de qualidade geralmente utilizam uma abordagem de dois estágios que inclui um recuperador para identificar os documentos mais relevantes e um leitor, normalmente construído com uma arquitetura baseada em codificador, para extrair a resposta desses documentos.

Inovações como a recuperação de passagens densas que emprega deep learning para o processo de recuperação, estão se mostrando eficazes para aumentar a velocidade e a precisão. Isso é particularmente importante para escalar os sistemas de controle de qualidade para operar com eficiência em grandes conjuntos de dados.

A interatividade também está se tornando um recurso central da nova geração de sistemas de controle de qualidade. Os pesquisadores estão desenvolvendo modelos de resposta a perguntas que podem se envolver em esclarecimentos, refinar sua compreensão de consultas ambíguas, reutilizar respostas anteriores e apresentar respostas em formatos mais detalhados e intuitivos. 

Soluções relacionadas
IBM watsonx Orchestrate

Projete assistentes e agentes de IA escaláveis com facilidade, automatize tarefas repetitivas e simplifique processos complexos com o IBM® watsonx Orchestrate.

Conheça o watsonx Orchestrate
Ferramentas e APIs de processamento de linguagem natural

Acelere o valor comercial da inteligência artificial com um portfólio poderoso e flexível de bibliotecas, serviços e aplicativos.

Explore as soluções de PNL
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Projete assistentes e agentes de IA escaláveis com facilidade, automatize tarefas repetitivas e simplifique processos complexos com o IBM® watsonx Orchestrate.

Conheça o watsonx Orchestrate Explore as soluções de PLN