¿Qué es la respuesta a preguntas?

Vista aérea de dos grandes veleros y contenedores

Autores

Tim Mucci

IBM Writer

Gather

¿Qué es la respuesta a preguntas?

La respuesta a preguntas (QA) es una rama de la informática dentro del procesamiento del lenguaje natural (PNL) y la recuperación de la información, que se dedica al desarrollo de sistemas que puedan responder a las preguntas expresadas en lenguaje natural con lenguaje natural. Estos sistemas determinan el contexto detrás de las preguntas, extraen información relevante de grandes cantidades de datos y la presentan al usuario de una manera concisa y legible.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

Tipos de respuesta a preguntas

Los sistemas de respuesta a preguntas se pueden clasificar en función de cómo generan respuestas a las preguntas del usuario, el alcance de los conocimientos que poseen y los tipos de preguntas o modalidades que admiten.

Respuesta a preguntas extractivas y generativas

Los sistemas de control de calidad extractivos funcionan identificando y extrayendo respuestas directamente del texto o las fuentes de datos proporcionados. Utilizan técnicas como el reconocimiento de entidades nombradas y la predicción de amplitud para localizar segmentos de texto específicos que responden a una pregunta específica.

Por ejemplo, se puede pedir a un sistema de control de calidad extractivo que identifique la población de un país en un documento.

Por el contrario, los sistemas de control de calidad generativos sintetizan sus propias respuestas utilizando los conocimientos aprendidos durante el entrenamiento. Estos sistemas no se limitan a extraer información palabra por palabra, sino que generan respuestas creativas y matizadas, a menudo basándose en modelos de lenguaje de gran tamaño (LLM).

Un ejemplo conocido de control de calidad generativo es GPT-3 o ChatGPT de OpenAI, que funciona con inteligencia artificial generativa (IA gen).

Respuesta a preguntas de dominio abierto y cerrado

Otra forma de clasificar los sistemas de control de calidad es según el alcance del conocimiento dentro del cual operan. Los sistemas de control de calidad de dominio abierto están diseñados para gestionar preguntas sobre prácticamente cualquier tema.

Se basan en un vasto conocimiento general y utilizan marcos como las ontologías para recuperar y organizar la información de forma eficaz. Estos sistemas son ideales para aplicaciones que requieren una amplia versatilidad, como asistentes virtuales o motores de búsqueda.

Sin embargo, los sistemas de control de calidad de dominio cerrado se especializan en áreas específicas, como la medicina, el derecho o la ingeniería. Utilizan conocimientos específicos del dominio para ofrecer respuestas detalladas y precisas adaptadas a su campo.

Por ejemplo, un sistema médico de control de calidad de dominio cerrado podría ayudar a los médicos respondiendo a preguntas de diagnóstico basadas en datos clínicos.

Sistemas de respuesta a preguntas de libro cerrado y libro abierto

Los sistemas de control de calidad también pueden clasificarse como de libro cerrado o de libro abierto, en función de cómo accedan a la información y la utilicen. Los sistemas de libro cerrado se basan completamente en el conocimiento memorizado durante su entrenamiento y no se refieren a fuentes externas.

Por ejemplo, GPT-3 puede proporcionar respuestas sin acceso en tiempo real a los datos. Sin embargo, los sistemas de libro abierto pueden acceder a bases de conocimiento externas o fuentes de datos durante el funcionamiento, lo que les permite proporcionar respuestas actualizadas y contextualmente relevantes. Los sistemas de control de calidad integrados en motores de búsqueda son un ejemplo común de sistemas de libro abierto.

Sistemas conversacionales, matemáticos y visuales

Los sistemas de control de calidad especializados están diseñados para tipos específicos de entrada o interacción. Los sistemas de control de calidad conversacional pueden mantener el contexto en múltiples turnos de una conversación, lo que permite intercambios coherentes y naturales. Esto los hace adecuados para chatbots y asistentes virtuales, donde la continuidad y el contexto son esenciales.  

Los sistemas matemáticos de control de calidad, por el contrario, se centran en responder a preguntas que requieren razonamiento y cálculos matemáticos. Estos sistemas deben entender las notaciones matemáticas y realizar cálculos para dar respuestas, como resolver ecuaciones o aplicar fórmulas.

Los sistemas de control de calidad visual están diseñados para responder preguntas sobre imágenes, combinando PNL con técnicas de visión artificial. Por ejemplo, dada una imagen de un automóvil, un sistema de control de calidad visual podría analizar la imagen y responder una pregunta como "¿De qué color es el automóvil?". El control de calidad visual tiene aplicaciones en áreas que incluyen herramientas de accesibilidad, subtítulos de imágenes y motores de búsqueda multimodales

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Unidades de datos

Los conjuntos de datos proporcionan la información sin procesar necesaria para entrenar modelos, evaluar su rendimiento y medir los avances en el campo. Los conjuntos de datos de control de calidad suelen consistir en preguntas emparejadas con sus respuestas correspondientes, a menudo extraídas de contextos específicos como documentos, bases de conocimiento o conjuntos de datos estructurados.

Los modelos de control de calidad utilizan datos de entrenamiento de alta calidad para asociar preguntas con respuestas adecuadas e identificar patrones dentro del conjunto de datos. Este proceso permite a las modelos generalizar desde los ejemplos que han visto a preguntas nuevas e invisibles.

Los conjuntos de datos también sirven como puntos de referencia que permiten a los investigadores y profesionales comparar las capacidades de diferentes modelos de control de calidad. Los modelos de referencia se utilizan a menudo como puntos de referencia para medir la eficacia de sistemas nuevos o avanzados frente a estándares de rendimiento establecidos.  

Se diseñan diferentes conjuntos de datos para probar diversos aspectos de los sistemas de control de calidad. Por ejemplo, algunos conjuntos de datos evalúan la capacidad de un sistema para responder a preguntas derivadas de una amplia gama de fuentes, mientras que otros se centran en comprender preguntas complejas o ambiguas.

Ciertos conjuntos de datos prueban el razonamiento de múltiples saltos, donde el sistema debe integrar información de múltiples documentos o secciones para llegar a una respuesta. Algunos conjuntos de datos incluyen incluso preguntas sin respuesta, lo que desafía a los modelos a crear una respuesta cuando no existe ninguna entre las fuentes.

La disponibilidad de conjuntos de datos diversos y cuidadosamente construidos ha avanzado significativamente en el campo del control de calidad. Al presentar sistemas con desafíos cada vez más complejos y variados, estos conjuntos de datos han fomentado el desarrollo de modelos más sofisticados y robustos capaces de manejar una amplia gama de escenarios del mundo real.

Medir el rendimiento de los sistemas de control de calidad

Las métricas de evaluación proporcionan una forma estandarizada de medir el rendimiento, lo que permite a los desarrolladores identificar áreas de mejora y perfeccionar sus modelos. Al ofrecer conocimientos objetivos y cuantificables, estas métricas van más allá de las evaluaciones subjetivas y ayudan a aclarar la eficacia con la que un sistema de control de calidad puede responder a las preguntas.

Las métricas desempeñan un papel crucial a la hora de identificar los puntos fuertes y débiles de un sistema de control de calidad y guían a los desarrolladores para que centren sus esfuerzos en mejorar aspectos específicos de sus sistemas.

El uso de referencias coherentes, como el Stanford Question Answering Dataset (SQuAD), permite a los investigadores comparar sus modelos con los de otros expertos. Estos puntos de referencia no sólo promueven la equidad en las comparaciones, sino que también realizan un seguimiento del progreso y ponen de relieve las técnicas más eficaces para hacer avanzar la tecnología de la garantía de calidad.

Las métricas de evaluación ayudan a prevenir el sobreajuste, un desafío común en el machine learning. Al probar los modelos en conjuntos de datos independientes, los desarrolladores pueden comprobar que sus sistemas generalizan bien con datos nuevos y desconocidos, en lugar de memorizar el conjunto de entrenamiento.

Además, las métricas pueden poner de relieve las limitaciones de los sistemas actuales. Por ejemplo, el bajo rendimiento de un modelo puede señalar áreas que requieren más investigación. Esta búsqueda continua de mejores puntuaciones fomenta el desarrollo de modelos de control de calidad más avanzados, capaces de gestionar tareas y conjuntos de datos cada vez más complejos.

La fiabilidad es otro enfoque crítico de las métricas de evaluación. Proporcionan un medio para validar la precisión de las respuestas de un sistema de control de calidad y minimizar los errores. Las métricas también guían el desarrollo iterativo de los modelos, ya que ofrecen feedback sobre el rendimiento de un sistema y ayudan a los desarrolladores a afinar sus componentes para obtener resultados óptimos.

Diferentes métricas satisfacen diferentes necesidades dentro de los sistemas de control de calidad. Por ejemplo, algunas métricas se centran en las coincidencias exactas entre las respuestas, mientras que otras evalúan el grado de superposición entre las respuestas previstas y las reales.

Estas distinciones ayudan a garantizar que el proceso de evaluación se adapte a los requisitos específicos de diversas tareas y modelos de control de calidad.

  • Coincidencia exacta (EM): esta métrica comprueba si la respuesta predicha coincide exactamente con la respuesta correcta. Es una métrica estricta que proporciona una buena manera de ver si un modelo puede obtener una respuesta correcta.
  • Puntuación F1: la puntuación F1 es una medida equilibrada que tiene en cuenta tanto la precisión (cuántas respuestas predichas son correctas) como la memoria (cuántas respuestas correctas se encuentran). Proporciona una única puntuación que refleja la precisión global de un modelo teniendo en cuenta tanto los falsos positivos como los falsos negativos, lo que lo hace más matizado que la coincidencia exacta (EM), que sólo comprueba las coincidencias perfectas.
  • Relevancia: en función de la arquitectura y el recuperador del sistema, un modelo puede evaluar el grado de confianza en que un determinado documento es relevante para una consulta.

Sin embargo, es posible que las métricas existentes no capturen completamente las complejidades de comprender y responder preguntas de manera efectiva.

  • Comprensión contextual: aunque las métricas pueden medir si un modelo da una respuesta correcta, no siempre muestran qué tan bien entiende un sistema la totalidad de una pregunta.
  • Razonamiento y síntesis: algunas tareas de respuesta a preguntas requieren el razonamiento y la síntesis de información de diferentes partes de un texto, lo que puede ser difícil de evaluar cuando se utilizan métricas simples.
  • Subjetividad: algunas preguntas pueden tener más de una respuesta correcta, la evaluación de este tipo de preguntas puede ser subjetiva.
  • Sin respuesta: en algunos conjuntos de datos, hay preguntas que no pueden responderse en función de la información particular y los sistemas necesitan reconocer esto. Las métricas se han desarrollado para dar cuenta de las preguntas que no tienen respuesta.
  • Palabras fuera de vocabulario: es posible que las métricas no capturen completamente el rendimiento de los sistemas que tratan con palabras que no están en el vocabulario del sistema.

A pesar de estos retos, las métricas de evaluación siguen siendo esenciales para valorar la eficacia de los sistemas de garantía de calidad. Ayudan a los desarrolladores a determinar qué tan bien un sistema responde preguntas e identificar áreas de mejora. Dado que los modelos de control de calidad se entrenan con datos generados por humanos, cualquier inexactitud o sesgo en los datos puede dar lugar a respuestas parciales, incluso si el modelo obtiene una puntuación alta en las métricas de evaluación.

Otra preocupación es la posibilidad de que los modelos "hagan trampa" explotando los sesgos estadísticos en los conjuntos de datos. Por ejemplo, un modelo podría aprender a asociar palabras clave específicas en una pregunta con un intervalo de respuesta determinado sin comprender realmente la consulta.

Para abordar este problema, algunos conjuntos de datos incluyen preguntas escritas sin permitir el acceso al texto de origen correspondiente durante su creación. Este enfoque reduce la probabilidad de que los modelos se basen en patrones superficiales en lugar de en una comprensión significativa.

Desafíos en los sistemas de respuesta a preguntas

Los sistemas de respuesta a preguntas se enfrentan a varios retos operativos que repercuten en su eficacia. Un obstáculo importante es comprender el significado y la intención detrás de una pregunta. Esto implica no sólo interpretar las palabras, sino también discernir el propósito de la pregunta, incluso cuando esté redactada de forma ambigua o poco clara.

Los sistemas de control de calidad deben manejar estructuras lingüísticas complejas, distinguir entre palabras o frases que suenen parecido y reconocer variaciones sutiles de significado.

Las preguntas pueden estar redactadas de distintas maneras, presentarse como consultas de varias frases o carecer de claridad explícita, lo que exige capacidades avanzadas de comprensión del lenguaje natural.

Otro desafío importante consiste en recuperar de manera eficiente información relevante de grandes cantidades de datos. Los sistemas de control de calidad deben emplear técnicas sofisticadas de recuperación de información, como análisis semántico y extracción de información, para identificar fuentes pertinentes y señalar respuestas específicas.

El gran volumen de datos que procesan estos sistemas, que a menudo abarcan conjuntos de datos masivos, aumenta la complejidad de la gestión de estos sistemas.

Los sistemas de control de calidad también necesitan mecanismos sólidos para representar y organizar el conocimiento. Técnicas como las ontologías y las redes semánticas permiten a los modelos categorizar y relacionar conceptos, mejorando su capacidad para entender cómo se conectan las palabras y las ideas dentro de una frase o a través de un conjunto de datos.

La tokenización de palabras, por ejemplo, divide el texto en unidades más pequeñas y analizables, lo que ayuda a los sistemas a comprender mejor las relaciones entre las palabras y sus contextos.

El razonamiento contextual presenta otra capa de complejidad. Más allá de comprender la pregunta en sí, los sistemas de control de calidad deben considerar el contexto más amplio, sintetizando información de múltiples fuentes o documentos para proporcionar respuestas adecuadas.

Esto requiere modelos para evaluar las relaciones entre los puntos de datos y extraer conclusiones significativas basadas en sus interconexiones.

Por último, la verificación de la exactitud de las respuestas es esencial para los sistemas de control de calidad. Deben evaluar críticamente la fiabilidad de sus fuentes y tener en cuenta los posibles sesgos de los datos.

Esto implica hacer referencias cruzadas a la información, identificar incoherencias y ayudar a garantizar que las respuestas estén respaldadas por pruebas creíbles. 

Aplicaciones de los sistemas de garantía de calidad

Las aplicaciones de los sistemas de control de calidad son diversas, abarcan sectores y casos de uso, y se centran en automatizar la recuperación de información y ofrecer respuestas rápidas y precisas a las consultas en lenguaje natural.  

Una aplicación destacada es el servicio de atención al cliente, donde los sistemas de control de calidad agilizan las operaciones automatizando las respuestas a las preguntas más frecuentes mediante una base de conocimientos. Esto aumenta la eficacia y mejora la satisfacción del cliente al proporcionar respuestas instantáneas y coherentes.

Del mismo modo, en el soporte técnico, los sistemas de control de calidad ofrecen tanto a los empleados como a los clientes acceso inmediato a la información relevante, lo que reduce los tiempos de espera y aumenta la productividad. Los asistentes virtuales también se benefician de las capacidades, lo que les permite comprender y responder a las consultas de los usuarios de forma más eficaz a través del lenguaje natural.

En investigación y enseñanza, los sistemas de control de calidad generan informes, ayudan con la investigación y apoyan los esfuerzos de verificación de hechos. Estos sistemas ayudan a los estudiantes proporcionándoles respuestas a demanda a preguntas educativas y ofreciéndoles apoyo en tiempo real.

También se utilizan en evaluaciones académicas, como la calificación de trabajos o la evaluación de respuestas en exámenes universitarios, al interpretar el texto y ofrecer respuestas basadas en la información específica.

En las funciones de los motores de búsqueda, los sistemas de control de calidad mejoran las experiencias de los usuarios al proporcionar respuestas instantáneas directamente relevantes para las consultas de los usuarios. En lugar de simplemente ofrecer una lista de páginas web relacionadas, los sistemas de búsqueda modernos utilizan la tecnología para extraer información específica de los documentos y ofrecer a los usuarios respuestas concisas y que se pueden ejecutar.

Además, los sistemas de control de calidad se aplican cada vez más a las tareas organizativas internas. Facilitan el tratamiento eficaz de la información en grandes depósitos de historiales médicos, documentos bancarios y cuadernos de viaje.

Al permitir búsquedas rápidas y precisas a través de datos estructurados y datos no estructurados, estos sistemas ahorran tiempo y mejoran la toma de decisiones en entornos profesionales. 

Implementación de controles de calidad

La implementación de un sistema de control de calidad eficaz requiere una planificación y ejecución cuidadosa en múltiples etapas, comenzando con la recopilación de datos y el preprocesamiento. Esto implica recopilar un corpus grande y diverso de datos de texto de fuentes como artículos de noticias, libros y bases de datos.

Los datos deben limpiarse para eliminar el contenido irrelevante, estandarizarse mediante derivación o lematización y tokenizarse en palabras o frases individuales. A veces, los anotadores humanos crean pares pregunta-respuesta o traducen conjuntos de datos existentes a otros idiomas.

Los conjuntos de datos de alta calidad generados por humanos suelen ofrecer un mejor rendimiento que los traducidos automáticamente, lo que subraya la importancia de la calidad del conjunto de datos.

La recuperación de información es otro componente crítico de un sistema de control de calidad. Se desarrollan algoritmos para extraer información relevante del corpus de texto en respuesta a las preguntas de los usuarios.

Técnicas como la búsqueda de palabras clave, la clasificación de texto y el reconocimiento de entidades con nombre ayudan a reducir los documentos relevantes. Para optimizar la eficacia, los modelos de clasificación por pasajes pueden dar prioridad a los documentos que probablemente contengan la respuesta antes de aplicar un modelo de control de calidad más intensivo desde el punto de vista informático.

Una arquitectura común es la canalización recuperador-lector, en la que el recuperador identifica un subconjunto de documentos relevantes y el lector extrae o genera la respuesta específica. La recuperación de pasajes densos, que utiliza el deep learning para la recuperación, es un enfoque prometedor que mejora tanto la velocidad como la precisión.

Otra consideración en el diseño del sistema de control de calidad es el tamaño de la ventana de contexto, que determina la cantidad de información que un modelo puede procesar a la vez. Por ejemplo, modelos como IBM Granite-3, con una ventana de contexto de 128 000 tokens, pueden gestionar eficazmente documentos de gran tamaño.

Cuando se procesan grandes conjuntos de datos, las cadenas de recuperación-lectura desempeñan un papel crucial, ya que permiten a los sistemas filtrar los documentos irrelevantes antes de extraer las respuestas, manteniendo así tanto la eficiencia como la precisión.

Investigación y tendencias actuales de control de calidad

La investigación y las tendencias actuales en los sistemas de respuesta a preguntas se centran en mejorar su capacidad para manejar tareas complejas y variadas, al mismo tiempo que mejoran la eficiencia y la solidez. Un área clave del desarrollo es la respuesta a preguntas de dominio abierto, donde los sistemas se dirigen a preguntas sobre prácticamente cualquier tema utilizando ontologías generales y conocimiento del mundo.  

El control de calidad multilingüe es otra tendencia significativa, con modelos como XLM-Roberta, que demuestran su capacidad para gestionar varios idiomas simultáneamente manteniendo un rendimiento equiparable al de los sistemas monolingües.

El desarrollo de sistemas de control de calidad multilingües es crucial para las aplicaciones globales, ya que permite la accesibilidad en diversos idiomas y comunidades.

De manera similar, el surgimiento de sistemas de control de calidad multimodales marca un cambio transformador, permitiendo que los sistemas procesen e integren información de texto, imágenes y audio.

Estas capacidades son especialmente valiosas para las tareas de respuesta a preguntas sobre el contenido de imágenes o vídeos, ya que permiten una comprensión más exhaustiva y la posibilidad de ofrecer respuestas más ricas y sofisticadas.

También se está trabajando en la mejora de las arquitecturas de los modelos para aumentar su rendimiento y eficacia. Los modelos basados en transformadores, como BERT, que se basan en un amplio entrenamiento previo para capturar la comprensión matizada del lenguaje, ampliamente accesible a través de plataformas como Hugging Face, han mejorado los sistemas de control de calidad al aumentar significativamente la precisión, lo que los hace viables para aplicaciones del mundo real.  

La investigación actual explora métodos para reducir las demandas computacionales de estos modelos mediante técnicas como la destilación de modelos, que entrena redes más pequeñas y eficientes para replicar el rendimiento de modelos más grandes.

Además, se están diseñando nuevos conjuntos de datos para desafiar aún más a los sistemas de control de calidad mediante la introducción de tareas que requieren un razonamiento en varios pasos, la gestión de preguntas ambiguas o sin respuesta y el tratamiento de consultas más complejas.

Las mejoras en los métodos de recuperación son otra área de enfoque. Los sistemas modernos de control de calidad suelen utilizar un planteamiento en dos fases: un recuperador para identificar los documentos más relevantes y un lector, construido normalmente con una arquitectura basada en codificadores, para extraer la respuesta de estos documentos.

Las innovaciones, como la recuperación densa de pasajes, que emplea el deep learning para el proceso de recuperación, están demostrando ser eficaces para mejorar tanto la velocidad como la precisión. Esto es especialmente importante a la hora de ampliar los sistemas de control de calidad para que funcionen con eficacia en conjuntos de datos masivos.

La interactividad también se está convirtiendo en una característica central de los sistemas de control de calidad de próxima generación. Los investigadores están desarrollando modelos de respuesta a preguntas que pueden participar en aclaraciones, perfeccionar su comprensión de consultas ambiguas, reutilizar respuestas anteriores y presentar respuestas en formatos más detallados e intuitivos. 

Soluciones relacionadas
IBM watsonx Orchestrate

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate
Herramientas y API de procesamiento del lenguaje natural

Acelere el valor empresarial de la inteligencia artificial con una cartera potente y flexible de bibliotecas, servicios y aplicaciones.

Explore soluciones de PLN
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate Explore soluciones de PLN