La búsqueda generativa es la combinación de modelos de IA generativa con capacidades de búsqueda, ampliando las capacidades de búsqueda y recuperación de las soluciones de búsqueda con las capacidades de generación de contenido y resumen de los modelos de lenguaje de gran tamaño (LLM). En el diagrama siguiente se muestra la arquitectura conceptual de Generative Search
Los documentos del cliente, incluidos los documentos de Word, los PDF, los datos web y otros textos estructurados y no estructurados, se consumen en un componente de análisis de contenido y se preparan para la búsqueda semántica.
Un usuario envía una pregunta utilizando la interfaz de usuario de Content Analysis.
El componente de Content Analysis utiliza la pregunta del usuario para identificar los documentos y pasajes de información más relevantes para la pregunta del usuario. Dependiendo de la pregunta del usuario, el componente envía la pregunta junto con los documentos y pasajes relevantes a un LLM para generar una respuesta similar a la humana.
El LLM devuelve la respuesta generada, que posteriormente se transmite al usuario.
La correspondencia entre la familia de productos IBM watsonx y el patrón de búsqueda generativa se muestra en el siguiente diagrama. IBM® watsonx Discovery se utiliza para proporcionar la ingesta de documentos, la comprensión de documentos y el análisis de contenidos y perspectivas del componente Content Analysis. IBM watsonx.ai se utiliza para seleccionar, ajustar, probar e implementar el modelo de lenguaje de gran tamaño utilizado para ampliar watsonx Discovery.
Algunos clientes no tienen watsonx.ai disponible en su región local, o pueden tener problemas de seguridad o requisitos reglamentarios que les impidan utilizar la solución SaaS de watsonx.ai. Para estos clientes, ofrecemos watsonx.ai como un conjunto de servicios en contenedores que pueden implementarse en Red Hat Openshift ejecutándose dentro de los centros de datos de los clientes, o dentro de una nube privada dentro de la infraestructura de un servicio en la nube.
Son muchos los factores que intervienen en la elección de un modelo que funcione bien para su proyecto.
La licencia del modelo puede restringir la forma en que se puede utilizar. Por ejemplo, la licencia de una modelo puede impedir que se utilice como parte de una solicitud comercial.
El conjunto de datos utilizado para entrenar el modelo de formación tiene un impacto directo en cómo funciona el modelo para una aplicación específica y afecta significativamente al riesgo de que el modelo pueda generar respuestas no sensatas, ofensivas o simplemente no deseadas. Del mismo modo, los modelos entrenados con datos protegidos por derechos de autor o privados pueden exponer a sus usuarios a responsabilidades legales. IBM proporciona total transparencia de los datos de formación e indemnización por reclamaciones legales derivadas de sus modelos.
El tamaño del modelo, es decir, con cuántos parámetros se entrena, y el tamaño de su ventana de contexto, es decir, cuánto texto puede aceptar el modelo, afectan el rendimiento del modelo, los requisitos de recursos y, por extensión, el costo y el rendimiento. Aunque es tentador seguir la filosofía de “cuanto más grande, mejor” y elegir un modelo de 20 000 millones de parámetros, es posible que los recursos necesarios y la mejora (si la hay) de la precisión no lo justifiquen. Estudios recientes han demostrado que los modelos más pequeños pueden superar significativamente a los más grandes para algunas soluciones.
Cualquier ajuste aplicado a un modelo puede afectar a su idoneidad para una tarea. Por ejemplo, IBM ofrece dos versiones del modelo Granite: una ajustada para aplicaciones generales de chat y otra ajustada para seguir instrucciones.
Otras consideraciones a la hora de elegir un modelo son:
Selección de los parámetros del modelo, por ejemplo, la temperatura del modelo, para equilibrar la creación de respuestas textuales y fácticas similares a las humanas. Ajustar la temperatura del modelo a un valor alto generará respuestas coherentes pero potencialmente poco interesantes o demasiado escuetas, mientras que ajustar la temperatura a un valor bajo introducirá más variedad en las respuestas pero añadirá imprevisibilidad en la longitud y el contenido de las mismas.
Selección e implementación de barandillas modelo para protegerse contra resultados ineficaces u ofensivos.
También hay que tener en cuenta el idioma de los datos del cliente y las instrucciones del usuario. La mayoría de los LLM están entrenados con textos en inglés y, a menudo, pueden traducir entre inglés y otros idiomas con diferentes niveles de experiencia. Las aplicaciones que requieren soporte multilingüe o de idiomas localizados pueden requerir el uso de múltiples modelos entrenados en cada uno de los idiomas compatibles, o la implementación de un paso de traducción para traducir entradas multilingües al inglés u otro idioma 'base'.
Algunos clientes pueden querer contar con un mecanismo de feedback para refinar continuamente las respuestas del sistema. Con el tiempo, este feedback puede mejorar tanto la configuración de watsonx Discovery (por ejemplo, refinando los parámetros de búsqueda) como afinar el LLM.
Los clientes de los sectores regulados tal vez deseen incluir un nivel adicional de monitorización para cumplir con la normativa y ofrecer transparencia a los usuarios sobre la forma en que se gestionan sus consultas y el papel de la IA en la generación de respuestas.
Al igual que con cualquier sistema integrado, monitorice continuamente el rendimiento, la satisfacción del usuario y cualquier problema potencial. Prepárese para escalar la infraestructura a medida que la demanda de los usuarios crezca.