Un sistema de asistencia de varios niveles en una organización puede emplear un asistente conversacional o chatbot basado en modelos de lenguaje grandes junto con agentes humanos, ofreciendo una asistencia eficaz y completa a los usuarios finales.
La arquitectura para la conversación con la asistencia del agente se muestra en el diagrama anterior. Los pasos principales del flujo de la arquitectura son:
Los documentos empresariales como manuales de productos, documentos de preguntas frecuentes, materiales de oferta, prospectos, tickets de soporte resueltos y otros se ingieren en una instancia de IBM watsonx Discovery y se preparan para la búsqueda semántica.
Los usuarios envían solicitudes, problemas o preguntas a través de una interfaz en el sitio web de la organización, una aplicación dedicada u otras plataformas. Esta interacción es facilitada por IBM watsonx Assistant, que actúa como la interfaz principal para las interacciones basadas en chat.
Para las solicitudes que requieren la recuperación de datos de los documentos o la base de conocimientos de la organización, se llama a IBM watsonx Discovery para buscar y recuperar los pasajes de información más relevantes para la solicitud del usuario.
Watsonx Assistant luego envía la solicitud del usuario y la información relevante recuperada de watsonx Discovery a un modelo de lenguaje extenso alojado en watsonx.ai.
El LLM sintetiza la solicitud del usuario y la información suministrada junto con el conocimiento integrado del LLM y genera una respuesta similar a la humana que se devuelve a watsonx.ai que, potencialmente después del formateo y otro procesamiento, se presenta al usuario.
Si el usuario no está satisfecho con la respuesta generada (por ejemplo, su solicitud es matizada, compleja o requiere conocimientos específicos), puede optar por que watsonx Assistant escale la llamada a un agente humano. Del mismo modo, las interacciones pueden escalarse automáticamente si se detecta que la respuesta del LLM es de baja confianza o potencialmente ofensiva. Los usuarios pueden optar por interactuar con un representante humano en cualquier momento. watsonx Assistant transfiere sin problemas la interacción a un agente humano a través del sistema de gestión del centro de contacto de la empresa.
Un agente humano, con acceso completo al historial de chat de watsonx Assistant, ayuda al usuario a resolver su solicitud, problema o pregunta.
Después de la resolución, el sistema, a través de watsonx Assistant, puede solicitar feedback de los usuarios. Este feedback ayuda a refinar las interacciones futuras mediante el análisis de consultas frecuentes perdidas o escaladas y permite a la organización ajustar el LLM alojado en watsonx.ai y/o ajustar los parámetros de búsqueda de watsonx Discovery para mejorar el rendimiento.
En el siguiente diagrama se muestra la correspondencia de la cartera de productos de IA de IBM watsonx con la arquitectura conceptual. watsonx Assistant proporciona las capacidades de interacción del componente asistente virtual, mientras que watsonx Discovery, un complemento de watsonx Assistant, proporciona capacidades de ingesta de documentos y búsqueda semántica. El entorno de hospedaje y desarrollo de modelos watsonx.ai se emplea para seleccionar, optimizar, probar y desplegar el modelo de lenguaje grande.
Algunos clientes no tienen watsonx.ai disponible en su región local, o pueden tener problemas de seguridad o requisitos normativos que les impidan usar el estudio de Ia de nivel empresarial watsonx.ai. Para estos clientes, ofrecemos watsonx.ai como un conjunto de servicios en contenedores que se pueden desplegar en Red Hat Openshift dentro de los centros de datos de los clientes, dentro de una nube privada en una infraestructura de servicio en la nube u otra ubicación.
Son muchos los factores que intervienen a la hora de elegir un modelo que se adapte bien a su proyecto.
La licencia del modelo puede restringir cómo se puede usar. Por ejemplo, la licencia de un modelo puede impedir que se utilice como parte de una aplicación comercial.
El conjunto de datos que se emplea para capacitar el modelo tiene un impacto directo en el funcionamiento del modelo para una aplicación específica y afecta significativamente el riesgo de que el modelo pueda generar respuestas sin sentido, ofensivas o simplemente no deseadas. De manera similar, los modelos capacitados con datos privados o sujetos a derechos de autor pueden exponer a sus usuarios a responsabilidad legal. IBM ofrece total transparencia en los datos de entrenamiento y protección frente a demandas legales derivadas de sus modelos.
El tamaño del modelo, la cantidad de parámetros con los que se entrena y el tamaño de su ventana de contexto (cuánto tiempo de un pasaje de texto puede aceptar el modelo) afectan el rendimiento del modelo, los requerimientos de recursos y el rendimiento. Si bien es tentador optar por una filosofía "más grande es mejor" y elegir un modelo de parámetros de 20 000 millones, los requerimientos de recursos y la mejora (si la hay) en precisión pueden no justificarlo. Estudios recientes han demostrado que los modelos más pequeños pueden superar significativamente a los más grandes para algunas soluciones
.Cualquier ajuste aplicado a un modelo puede afectar su idoneidad para una tarea. Por ejemplo, IBM ofrece dos versiones del modelo Granite: una ajustada para aplicaciones generales de chat y otra ajustada para seguir instrucciones.
Otras consideraciones al elegir un modelo incluyen:
Selección de parámetros del modelo, p. ej., la temperatura del modelo, para equilibrar la creación de texto similar al humano y respuestas fácticas. Establecer la temperatura del modelo en un valor alto generará respuestas coherentes pero potencialmente poco interesantes o demasiado concisas, mientras que establecer la temperatura en un valor bajo introducirá más variedad en las respuestas, pero agregará imprevisibilidad en la longitud y el contenido de la respuesta.
Selección e implementación de medidas de protección modelo para protegerse contra resultados ineficaces u ofensivos.
También se debe tener en cuenta el idioma de los datos del cliente y las instrucciones del usuario. La mayoría de los LLM están capacitados para trabajar con textos en inglés y, a menudo, pueden traducir entre inglés y otros idiomas con distintos niveles de experiencia. Las aplicaciones que requieren compatibilidad con varios idiomas o idiomas localizados pueden requerir el uso de varios modelos capacitados en cada uno de los idiomas admitidos o la implementación de un paso de traducción para traducir las entradas multilingües al inglés u otro idioma "base".