Búsqueda generativa: explicación de un patrón de arquitectura de IBM

Búsqueda generativa

La búsqueda generativa es la combinación de modelos de IA generativa con capacidades de búsqueda; ampliar las capacidades de búsqueda y recuperación de las soluciones de búsqueda con las capacidades de generación y resumen de contenido de los modelos de lenguaje grandes (LLM). La arquitectura conceptual de la búsqueda generativa se muestra en el diagrama siguiente

Una ilustración de los componentes principales y sus interconexiones para una solución de búsqueda generativa.

Patrones de arquitectura de IA generativa

Los documentos del cliente, incluidos documentos de Word, PDF, datos web y otro texto estructurado y no estructurado, se ingieren en un componente de análisis de contenido y se preparan para la búsqueda semántica.
Un usuario envía una pregunta mediante la interfaz de usuario de análisis de contenido.
El componente de análisis de contenido utiliza la pregunta del usuario para identificar los documentos y pasajes de información más relevantes para la pregunta del usuario. Dependiendo de la pregunta del usuario, el componente envía la pregunta junto con los documentos y pasajes relevantes a un LLM para generar una respuesta similar a la humana.
El LLM devuelve la respuesta generada que posteriormente se pasa al usuario.

Arquitectura de productos de IBM

La asignación de la familia de productos IBM watsonx al patrón de búsqueda generativa se muestra en el siguiente diagrama. IBM Watson Discovery se utiliza para proporcionar la ingesta de documentos, la comprensión de documentos y el análisis de contenido e insights del componente de análisis de contenido. IBM watsonx.ai se utiliza para seleccionar, ajustar, probar y desplegar el modelo de lenguaje grande utilizado para ampliar Watson Discovery.

Una ilustración de cómo IBM Watson Discovery e IBM watsonx.ai SaaS realizan la solución de búsqueda generativa.

Despliegues on-premises/privados

Algunos clientes no tienen watsonx.ai disponible en su región local, o pueden tener problemas de seguridad o requisitos normativos que les impiden usar la solución SaaS de watsonx.ai. Para estos clientes, ofrecemos watsonx.ai como un conjunto de servicios en contenedores que se pueden desplegar en Red Hat Openshift que se ejecutan dentro de los centros de datos de los clientes o dentro de una nube privada en la infraestructura de un servicio en la nube.

Una ilustración de cómo IBM Watson Discovery e IBM watsonx.ai se despliegan on premises para realizar la solución de búsqueda generativa.

Decisiones de arquitectura y consideración

Son muchos los factores que intervienen a la hora de elegir un modelo que se adapte bien a su proyecto.

La licencia del modelo puede restringir cómo se puede usar. Por ejemplo, la licencia de un modelo puede impedir que se utilice como parte de una aplicación comercial.

El conjunto de datos utilizado para entrenar el modelo tiene un impacto directo en el funcionamiento del modelo para una aplicación específica y afecta significativamente el riesgo de que el modelo genere respuestas sin sentido, ofensivas o simplemente no deseadas. Del mismo modo, los modelos entrenados con datos privados o protegidos por derechos de autor pueden exponer a sus usuarios a responsabilidad legal. IBM proporciona total transparencia en los datos de entrenamiento e indemnización por reclamaciones legales derivadas de sus modelos.

El tamaño del modelo, es decir, con cuántos parámetros se entrena, y el tamaño de su ventana de contexto, es decir, cuánto tiempo de un pasaje de texto puede aceptar el modelo, afectan el rendimiento del modelo, los requisitos de recursos y, por extensión, el costo y el rendimiento. Si bien es tentador optar por una filosofía de "cuanto más grande, mejor" y elegir un modelo de 20 000 millones de parámetros, es posible que los requisitos de recursos y la mejora (si la hay) en la precisión no lo justifiquen. Estudios recientes han demostrado que los modelos más pequeños pueden superar significativamente a los más grandes para algunas soluciones.

Cualquier ajuste aplicado a un modelo puede afectar su idoneidad para una tarea. Por ejemplo, IBM ofrece dos versiones del modelo Granite: una ajustada para aplicaciones generales de chat y otra ajustada para seguir instrucciones.

Otras consideraciones al elegir un modelo incluyen:

Selección de los parámetros del modelo, p. ej. la temperatura del modelo, para equilibrar la creación de texto similar al humano y las respuestas fácticas. Establecer la temperatura del modelo en un valor alto generará respuestas consistentes pero potencialmente poco interesantes o demasiado concisas, mientras que establecer la temperatura en un valor bajo introducirá más variedad en las respuestas, pero agregará imprevisibilidad en la longitud y el contenido de la respuesta.
Selección e implementación de medidas de protección modelo para protegerse contra resultados ineficaces u ofensivos.
También se debe tener en cuenta el idioma de los datos del cliente y las instrucciones para el usuario. La mayoría de los LLM están capacitados en textos en inglés y, a menudo, pueden traducir entre inglés y otros idiomas con diferentes niveles de experiencia. Las aplicaciones que requieren soporte multilingüe o de idiomas localizados pueden requerir el uso de múltiples modelos entrenados en cada uno de los idiomas admitidos, o la implementación de un paso de traducción para traducir entradas multilingües al inglés u otro idioma "base".

Algunos clientes pueden desear tener un mecanismo de feedback para refinar continuamente las respuestas del sistema. Con el tiempo, este feedback puede mejorar tanto la configuración de Watson Discovery (por ejemplo, refinando los parámetros de búsqueda) como para ajustar el LLM.

Es posible que los clientes de industrias reguladas deseen incluir una capa adicional de monitoreo para cumplir con las regulaciones y proporcionar transparencia a los usuarios sobre cómo se manejan sus consultas y el papel de la IA en la generación de respuestas.

Al igual que con cualquier sistema integrado, monitoree continuamente el rendimiento, la satisfacción del usuario y cualquier problema potencial. Prepárese para escalar la infraestructura a medida que crezca la demanda de los usuarios.

Siguientes pasos

Hable con nuestros expertos sobre la implementación de un patrón de despliegue de nube híbrida.

Más formas de explorar

IBM Architecture Center

Herramientas y plantillas de diagramas

IBM Well-Architected Framework

Búsqueda generativa

Decisiones de arquitectura y consideración

Colaboradores

Manav Gupta, Chris Kirby, Mihai Criveti, Bryan Kyle

Actualizado: 30 de noviembre de 2023