¿Qué es la respuesta a preguntas?

30 enero 2025

Autores

Tim Mucci

Writer, Gather

¿Qué es la respuesta a preguntas?

La respuesta a preguntas (QA) es una rama de la informática dentro del procesamiento de lenguaje natural (PLN) y la recuperación de información, que se dedica a desarrollar sistemas que puedan responder a preguntas expresadas en lenguaje natural con lenguaje natural. Estos sistemas determinan el contexto detrás de las preguntas, extraen información relevante de grandes cantidades de datos y la presentan al usuario de una manera concisa y legible.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA 


Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Tipos de respuesta a preguntas

Los sistemas de respuesta a preguntas se pueden clasificar según cómo generan respuestas a las preguntas del usuario, el alcance del conocimiento que poseen y los tipos de preguntas o modalidades que admiten.

Respuesta a preguntas extractivas y generativas

Los sistemas de QA extractivos identifican y extraen las respuestas directamente del texto o de las fuentes de datos. Emplean técnicas, como el reconocimiento de entidades nombradas y la predicción de tramos para localizar segmentos de texto específicos que respondan a una pregunta concreta.

Por ejemplo, se podría pedir a un sistema de QA extractivo que identifique la población de un país en un documento.

Por el contrario, los sistemas de QA generativos sintetizan sus propias respuestas empleando los conocimientos aprendidos durante el entrenamiento. Estos sistemas no se limitan a extraer información palabra por palabra, sino que generan respuestas creativas y matizadas, a menudo basadas en modelos de lenguaje grandes (LLM).

Un ejemplo bien conocido de QA generativo es GPT-3 o ChatGPT de OpenAI, que funciona con inteligencia artificial generativa (IA generativa).

Respuesta a preguntas de dominio abierto y cerrado

Otra forma de clasificar los sistemas de QA es mediante el alcance del conocimiento en el que operan. Los sistemas de QA de dominio abierto están diseñados para manejar preguntas sobre prácticamente cualquier tema.

Se basan en un vasto conocimiento general y utilizan infraestructuras, como ontologías, para recuperar y organizar la información de manera efectiva. Estos sistemas son ideales para aplicaciones que requieren una amplia versatilidad, como asistentes virtuales o motores de búsqueda.

Sin embargo, los sistemas de QA de dominio cerrado se especializan en áreas específicas, como medicina, derecho o ingeniería. Utilizan conocimientos específicos del dominio para ofrecer respuestas detalladas y precisas adaptadas a su campo.

Por ejemplo, un sistema de QA de dominio cerrado podría ayudar a los médicos respondiendo preguntas de diagnóstico basadas en datos clínicos.

Sistemas de respuesta a preguntas de libro cerrado y libro abierto

Los sistemas de QA también se pueden clasificar como de libro cerrado o de libro abierto, según cómo accedan y utilicen la información. Los sistemas de libro cerrado se basan completamente en el conocimiento memorizado durante su entrenamiento y no se refieren a fuentes externas.

Por ejemplo, GPT-3 puede proporcionar respuestas sin acceso en tiempo real a los datos. Sin embargo, los sistemas de libro abierto pueden acceder a bases de conocimiento externas o fuentes de datos durante la operación, lo que les permite proporcionar respuestas actualizadas y contextualmente relevantes. Los sistemas de QA integrados en motores de búsqueda son un ejemplo común de sistemas de libro abierto.

Sistemas conversacionales, matemáticos y visuales

Los sistemas de QA especializados están diseñados para tipos específicos de entrada o interacción. Los sistemas de QA conversacional pueden mantener el contexto a lo largo de múltiples giros de una conversación, lo que permite intercambios coherentes y naturales. Esto los hace adecuados para chatbots y asistentes virtuales, donde la continuidad y el contexto son esenciales.  

Los sistemas de QA matemáticos, por el contrario, se centran en responder preguntas que requieren razonamiento y cálculos matemáticos. Estos sistemas deben comprender notaciones matemáticas y realizar cálculos para proporcionar respuestas, como resolver ecuaciones o aplicar fórmulas.

Los sistemas de QA visuales están diseñados para responder preguntas sobre imágenes, combinando PLN con técnicas de visión artificial. Por ejemplo, dada la imagen de un automóvil, un sistema de control de calidad visual podría analizar la imagen y responder a una pregunta como "¿De qué color es el automóvil?". El QA visual tiene aplicaciones en áreas que incluyen herramientas de accesibilidad, subtítulos de imágenes y motores de búsqueda multimodales

Mixture of Experts | Podcast

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Xonjuntos de datos

Los conjuntos de datos proporcionan la información sin procesar necesaria para entrenar modelos, evaluar su rendimiento y medir los avances en el campo. Los conjuntos de datos de QA suelen consistir en preguntas emparejadas con sus respuestas correspondientes, a menudo extraídas de contextos específicos, como documentos, bases de conocimiento o conjuntos de datos estructurados.

Los modelos de QA utilizan datos de entrenamiento de alta calidad para asociar preguntas con respuestas adecuadas e identificar patrones dentro del conjunto de datos. Este proceso permite que los modelos generalicen los ejemplos que vieron a preguntas nuevas e inéditas.

Los conjuntos de datos también sirven como puntos de referencia que permiten a los investigadores y profesionales comparar las capacidades de diferentes modelos de QA. Los modelos de referencia se utilizan a menudo como puntos de referencia para medir la eficacia de los sistemas nuevos o avanzados frente a los estándares de rendimiento establecidos.  

Se diseñan diferentes conjuntos de datos para probar diversos aspectos de los sistemas de QA. Por ejemplo, algunos conjuntos de datos evalúan la capacidad de un sistema para responder preguntas derivadas de una amplia gama de fuentes, mientras que otros se centran en comprender preguntas complejas o ambiguas.

Ciertos conjuntos de datos prueban el razonamiento multihop, donde el sistema debe integrar información de múltiples documentos o secciones para llegar a una respuesta. Algunos conjuntos de datos incluso contienen preguntas sin respuesta, lo que desafía a los modelos a crear una respuesta cuando no existe ninguna respuesta entre las fuentes.

La disponibilidad de conjuntos de datos diversos y cuidadosamente construidos ha avanzado significativamente en el campo de QA. Al presentar sistemas con desafíos cada vez más complejos y variados, estos conjuntos de datos han fomentado el desarrollo de modelos más sofisticados y robustos capaces de manejar una amplia gama de escenarios del mundo real.

Medición del rendimiento de los sistemas de QA

Las métricas de evaluación proporcionan una forma estandarizada de medir el rendimiento, lo que permite a los desarrolladores identificar áreas de mejora y refinar sus modelos. Al ofrecer insights objetivos y cuantificables, estas métricas van más allá de las evaluaciones subjetivas y ayudan a aclarar cómo de manera efectiva un sistema de QA puede responder preguntas.

Las métricas juegan un papel crucial en la identificación de las fortalezas y debilidades de un sistema de QA y guían a los desarrolladores a enfocar sus esfuerzos en mejorar aspectos específicos de sus sistemas.

Mediante el uso de puntos de referencia congruentes, como el Stanford Question Answering Dataset (SQuAD), los investigadores pueden evaluar cómo sus modelos se apilan con otros en el campo. Estos puntos de referencia no solo promueven la equidad en las comparaciones, sino que también hacen un seguimiento del progreso y destacan las técnicas más efectivas para avanzar en la tecnología de QA.

Las métricas de evaluación ayudan a prevenir el sobreajuste, un desafío común en machine learning. Al probar modelos en conjuntos de datos separados, los desarrolladores pueden verificar que sus sistemas se generalizan bien a datos nuevos e inéditos en lugar de memorizar el conjunto de entrenamiento.

Además, las métricas pueden resaltar las limitaciones de los sistemas actuales. Por ejemplo, el bajo rendimiento de un modelo puede indicar áreas que requieren más investigación. Esta búsqueda continua de mejores puntuaciones fomenta el desarrollo de modelos de QA más avanzados, capaces de manejar tareas y conjuntos de datos cada vez más complejos.

La confiabilidad es otro enfoque crítico de las métricas de evaluación. Proporcionan un medio para validar la precisión de las respuestas de un sistema de QA y minimizar los errores. Las métricas también guían el desarrollo iterativo de modelos al ofrecer retroalimentación sobre el rendimiento de un sistema y ayudar a los desarrolladores a ajustar sus componentes para obtener resultados óptimos.

Diferentes métricas satisfacen diferentes necesidades dentro de los sistemas de QA. Por ejemplo, algunas métricas se centran en coincidencias exactas entre las respuestas, mientras que otras evalúan el grado de superposición entre las respuestas pronosticadas y las reales.

Estas distinciones ayudan a garantizar que el proceso de evaluación se adapte a los requisitos específicos de diversas tareas y modelos de QA.

  • Coincidencia exacta (EM): esta métrica comprueba si la respuesta pronosticada coincide exactamente con la respuesta correcta. Es una métrica estricta que proporciona una buena manera de ver si un modelo puede obtener una respuesta correcta.
  • Puntuación F1: es una medida equilibrada que considera tanto la precisión (cuántas respuestas previstas son correctas) como la memoria (cuántas respuestas correctas se encuentran). Proporciona una puntuación única que refleja la precisión general de un modelo al tener en cuenta tanto los falsos positivos como los falsos negativos, lo que lo hace más matizado que la coincidencia exacta (EM), que solo comprueba las coincidencias perfectas.
  • Relevancia: dependiendo de la arquitectura y el recuperador del sistema, un modelo puede evaluar qué tan seguro está de que un determinado documento es relevante para una consulta.

Sin embargo, es posible que las métricas existentes no capturen completamente las complejidades de comprender y responder preguntas de manera efectiva.

  • Comprensión contextual: aunque las métricas pueden medir si un modelo da una respuesta correcta, no siempre muestran lo bien que un sistema comprende la totalidad de una pregunta.
  • Razonamiento y síntesis: algunas tareas de respuesta a preguntas requieren razonamiento y síntesis de información de diferentes partes de un texto, lo que puede ser difícil de evaluar cuando se utilizan métricas simples.
  • Subjetividad: algunas preguntas pueden tener más de una respuesta correcta, y la evaluación de este tipo de preguntas puede ser subjetiva.
  • Sin respuesta: en algunos conjuntos de datos, hay preguntas que no se pueden responder en función de la información particular y los sistemas necesitan reconocer esto. Las métricas se han desarrollado para dar cuenta de las preguntas que no tienen respuesta.
  • Palabras fuera del vocabulario: es posible que las métricas no capturen completamente el rendimiento de los sistemas que manejan palabras que no están en el vocabulario del sistema.

A pesar de estos desafíos, las métricas de evaluación siguen siendo esenciales para evaluar la eficacia de los sistemas de QA. Ayudan a los desarrolladores a determinar qué tan bien un sistema responde preguntas e identificar áreas de mejora. Debido a que los modelos de QA se entrenan con datos generados por humanos, cualquier imprecisión o sesgo en los datos puede dar lugar a respuestas con sesgo, incluso si el modelo obtiene una puntuación alta en las métricas de evaluación.

Otra preocupación es la posibilidad de que los modelos “hagan trampa” explotando sesgos estadísticos en los conjuntos de datos. Por ejemplo, un modelo podría aprender a asociar palabras clave específicas en una pregunta con un rango particular de respuestas sin comprender genuinamente la consulta.

Para abordar este problema, algunos conjuntos de datos incluyen preguntas escritas sin permitir el acceso al texto fuente correspondiente durante su creación. Este enfoque reduce la probabilidad de que los modelos se basen en patrones superficiales en lugar de una comprensión significativa.

Desafíos en los sistemas de respuesta a preguntas

Los sistemas de respuesta a preguntas se enfrentan a varios desafíos operativos que afectan su eficacia. Un obstáculo importante es comprender el significado y la intención detrás de una pregunta. Esto implica no solo interpretar las palabras, sino también discernir el propósito de la pregunta, incluso cuando está formulada de manera ambigua o poco clara.

Los sistemas de QA deben manejar estructuras lingüísticas complejas, distinguir entre palabras o frases que suenan similares y reconocer variaciones sutiles en el significado.

Las preguntas pueden formularse de diversas maneras, presentarse como consultas de varias oraciones o carecer de claridad explícita, lo que exige capacidades avanzadas de comprensión de lenguaje natural.

Otro desafío importante radica en recuperar de manera eficiente información relevante de grandes cantidades de datos. Los sistemas de QA deben emplear técnicas sofisticadas de recuperación de información, como el análisis semántico y la extracción de información, para identificar fuentes pertinentes y señalar respuestas específicas.

El gran volumen de datos que procesan estos sistemas, que a menudo abarca conjuntos de datos masivos, aumenta la complejidad de administrar estos sistemas.

Los sistemas de QA también necesitan mecanismos sólidos para representar y organizar el conocimiento. Algunas técnicas, como ontologías y redes semánticas, permiten a los modelos categorizar y relacionar conceptos, mejorando su capacidad para comprender cómo se conectan las palabras y las ideas dentro de una oración o a través de un conjunto de datos.

La tokenización de palabras, por ejemplo, divide el texto en unidades más pequeñas y analizables, lo que ayuda a los sistemas a comprender mejor las relaciones entre las palabras y sus contextos.

El razonamiento contextual presenta otra capa de complejidad. Más allá de la comprensión de la pregunta en sí, los sistemas de QA deben considerar el contexto más amplio, sintetizando información de múltiples fuentes o documentos para proporcionar respuestas adecuadas.

Esto requiere modelos que evalúen las relaciones entre los puntos de datos y extraigan conclusiones significativas basadas en sus interconexiones.

Finalmente, verificar la precisión de las respuestas es esencial para los sistemas de QA. Deben evaluar críticamente la confiabilidad de sus fuentes y tener en cuenta los posibles sesgos en los datos.

Esto implica hacer referencias cruzadas de información, identificar incongruencias y ayudar a garantizar que las respuestas estén respaldadas por evidencia creíble. 

Aplicaciones de los sistemas de QA

Las aplicaciones de los sistemas de QA son diversas y abarcan industrias y casos de uso, con un enfoque en la automatización de la recuperación de información y la entrega de respuestas rápidas y precisas a las consultas en lenguaje natural.  

Una aplicación destacada es la atención al cliente, donde los sistemas de QA agilizan las operaciones automatizando las respuestas a las preguntas frecuentes mediante una base de conocimientos. Esto aumenta la eficacia y mejora la satisfacción del cliente al proporcionar respuestas instantáneas y coherentes.

De igual manera, en el soporte técnico, los sistemas de QA ofrecen tanto a los empleados como a los clientes acceso inmediato a la información relevante, reduciendo los tiempos de espera y aumentando la productividad. Los asistentes virtuales también tienen un beneficio de las capacidades de QA, lo que les permite comprender y responder a las consultas de los usuarios de manera más efectiva a través del lenguaje natural.

En investigación y educación, los sistemas de QA generan informes, ayudan con la investigación y respaldan los esfuerzos de verificación de hechos. Estos sistemas ayudan a los estudiantes proporcionando respuestas a pedido a preguntas educativas y ofreciendo soporte en tiempo real.

También se emplean en evaluaciones académicas, como la calificación de trabajos o la evaluación de respuestas en exámenes universitarios, interpretando el texto y ofreciendo respuestas basadas en la información específica.

En las funciones de los motores de búsqueda, los sistemas de QA mejoran las experiencias del usuario al proporcionar respuestas instantáneas directamente relevantes para las consultas de los usuarios. En lugar de simplemente entregar una lista de páginas web relacionadas, los sistemas de búsqueda modernos utilizan tecnología de QA para extraer información específica de los documentos, ofreciendo a los usuarios respuestas concisas y procesables.

Además, los sistemas de QA se aplican cada vez más a tareas organizativas internas. Facilitan el procesamiento eficiente de la información dentro de grandes repositorios de registros médicos, documentos bancarios y registros de viaje.

Al permitir búsquedas rápidas y precisas a través de datos estructurados y no estructurados, estos sistemas ahorran tiempo y mejoran la toma de decisiones en entornos profesionales. 

Implementación de QA

La implementación de un sistema de QA eficaz requiere una planificación y ejecución cuidadosas en múltiples etapas, comenzando con la recopilación y el preprocesamiento de datos. Esto implica recopilar un corpus grande y diverso de datos de texto de fuentes, como artículos de noticias, libros y bases de datos.

Los datos deben limpiar para eliminar el contenido irrelevante, normalizar por medio de la normalización o lematización y tokenizarse en palabras o frases individuales. A veces, los anotadores humanos crean pares pregunta-respuesta o traducen conjuntos de datos existentes a otros idiomas.

Los conjuntos de datos de alta calidad generados por humanos suelen tener un mejor rendimiento que los traducidos por máquinas, lo que subraya la importancia de la calidad del conjunto de datos.

La recuperación de información es otro componente crítico de un sistema de QA. Los algoritmos se desarrollan para extraer información relevante del corpus de texto en respuesta a las preguntas de los usuarios.

Técnicas como la búsqueda por palabras clave, la clasificación de texto y el reconocimiento de entidades nombradas ayudan a reducir los documentos relevantes. Para optimizar la eficiencia, los modelos de clasificación de pasajes pueden priorizar los documentos que probablemente contengan la respuesta antes de aplicar un modelo de QA más intensivo desde el punto de vista computacional.

Una arquitectura común es el pipeline de recuperación y lectura, donde el recuperador identifica un subconjunto de documentos relevantes y el lector extrae o genera la respuesta específica. La recuperación de pasajes densos, que utiliza el aprendizaje profundo para la recuperación, es un enfoque prometedor que mejora tanto la velocidad como la precisión.

Otra consideración en el diseño del sistema de QA es el tamaño de la ventana de contexto, que determina la cantidad de información que un modelo puede procesar a la vez. Por ejemplo, modelos como IBM Granite-3, con una ventana de contexto de 128 000 tokens, pueden manejar documentos grandes de manera eficiente.

Al procesar conjuntos de datos extensos, los pipelines de recuperación y lectura desempeñan un papel crucial, ya que permiten que los sistemas filtren documentos irrelevantes antes de extraer respuestas, manteniendo así la eficiencia y la precisión.

Investigación y tendencias actuales de QA

La investigación actual y las tendencias en los sistemas de respuesta a preguntas se centran en mejorar su capacidad para manejar tareas complejas y variadas, al tiempo que se mejora la eficiencia y robustez. Un área clave de desarrollo es la respuesta a preguntas de dominio abierto, donde los sistemas se dirigen a preguntas sobre prácticamente cualquier tema mediante el uso de ontologías generales y conocimiento del mundo.  

El QA multilingüe es otra tendencia importante, con modelos, como XLM-Roberta, que demuestran la capacidad de manejar varios idiomas simultáneamente mientras se mantiene el rendimiento a la par con los sistemas de un solo idioma.

El desarrollo de sistemas de QA multilingües es crucial para las aplicaciones globales, ya que permite la accesibilidad en diversos idiomas y comunidades.

Del mismo modo, el auge de los sistemas de QA multimodal marca un cambio transformador, ya que permite que los sistemas procesen e integren información de texto, imágenes y audio.

Estas capacidades son especialmente valiosas para tareas de respuesta a preguntas sobre el contenido de imágenes o videos, lo que permite una comprensión más completa y la capacidad de ofrecer respuestas más ricas y sofisticadas.

También se están realizando esfuerzos para mejorar las arquitecturas de los modelos para mejorar el rendimiento y la eficiencia. Los modelos basados en transformadores como BERT, que dependen de un amplio preentrenamiento para capturar la comprensión matizada del lenguaje (que se hace ampliamente accesible a través de plataformas, como Hugging Face), mejoraron los sistemas de QA al aumentar significativamente la precisión, lo que los hace viables para aplicaciones del mundo real.  

La investigación actual explora métodos para reducir las demandas computacionales de estos modelos a través de técnicas como la destilación de modelos, que entrena redes más pequeñas y eficientes para replicar el desempeño de modelos más grandes.

Además, se están diseñando nuevos conjuntos de datos para desafiar aún más los sistemas de QA al introducir tareas que requieren razonamiento de varios pasos, manejar preguntas ambiguas o sin respuesta y dirigirse a preguntas más complejas.

Las mejoras en los métodos de recuperación son otra área de enfoque. Los sistemas de QA modernos a menudo utilizan un enfoque de dos etapas, que comprende un recuperador para identificar los documentos más relevantes y un lector, generalmente construido con una arquitectura basada en codificadores, para extraer la respuesta de estos documentos.

Las innovaciones, incluida la recuperación de pasajes densos, que emplea el aprendizaje profundo para el proceso de recuperación, están demostrando ser eficaces para mejorar tanto la velocidad como la precisión. Esto es particularmente importante para escalar los sistemas de QA para operar de manera eficiente en conjuntos de datos masivos.

La interactividad también se está convirtiendo en una característica central de los sistemas de QA de próxima generación. Los investigadores están desarrollando modelos de respuesta a preguntas que pueden realizar aclaraciones, refinar su comprensión de consultas ambiguas, reutilizar respuestas anteriores y presentar respuestas en formatos más detallados e intuitivos. 

Soluciones relacionadas
IBM watsonx Orchestrate

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate
Herramientas y API de procesamiento de lenguaje natural

Acelere el valor de negocio de la inteligencia artificial con una cartera potente y flexible de bibliotecas, servicios y aplicaciones.

Explorar las soluciones de PLN
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate Explorar las soluciones de PLN