Los recientes avances en las estrategias de inferencia que aumentan los recursos y emplean algoritmos complejos en el momento de la prueba están redefiniendo la forma en que los LLM abordan tareas de razonamiento complejas y ofrecen output de mayor calidad en diversas modalidades de entrada. El escalado de inferencias optimiza la cadena de pensamiento (CoT) ampliando la profundidad del razonamiento. Esta expansión permite a los modelos producir cadenas de pensamiento más largas y detalladas a través de prompts iterativos o generación de varios pasos. El escalado de inferencias se puede aprovechar para mejorar el RAG multimodal, centrándose en la interacción entre los tamaños de los modelos, los presupuestos informáticos y la optimización práctica del tiempo de inferencia para aplicaciones del mundo real.

Además, las leyes de escalado y los resultados de referencia enfatizan las compensaciones entre el preentrenamiento, el ajuste, las estrategias de tiempo de inferencia y los algoritmos avanzados para la selección de output. Tanto los modelos más grandes como los más pequeños se benefician del escalado de inferencia, ya que también permite que los sistemas con recursos limitados se acerquen al beneficio de los LLM de vanguardia. Este tutorial demuestra el impacto de las técnicas de optimización en el rendimiento del modelo, ofreciendo una guía que se puede ejecutar para equilibrar la precisión, la latencia y el coste en las implementaciones de RAG multimodales.

Este tutorial está diseñado para desarrolladores, investigadores y entusiastas de la inteligencia artificial que buscan mejorar sus conocimientos sobre gestión de documentos y técnicas avanzadas de procesamiento del lenguaje natural (PLN). Aprenderá a aprovechar el poder del escalado de inferencias para mejorar el pipeline RAG multimodal creado en una receta anterior. Aunque este tutorial se centra en las estrategias de escalabilidad en RAG multimodal centradas específicamente en los grandes modelos de lenguaje de IBM Granite, principios similares son aplicables a los modelos más populares, incluidos los de OpenAI (por ejemplo, GPT-4, GPT-4o, ChatGPT) y DeepMind .