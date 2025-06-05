Los avances recientes en las estrategias de inferencia que aumentan los recursos computacionales y emplean algoritmos complejos en el momento de la prueba están redefiniendo la forma en que los LLM abordan tareas de razonamiento complejas y ofrecen resultados de mayor calidad en diversas modalidades de entrada. El escalado de inferencias optimiza la cadena de pensamiento (CoT) al ampliar la profundidad del razonamiento. Esta expansión permite que los modelos produzcan cadenas de pensamiento más largas y detalladas a través de instrucciones iterativas o generación de varios pasos. El escalado de inferencia se puede aprovechar para mejorar el RAG multimodal, centrándose en la interacción entre los tamaños de los modelos, los presupuestos informáticos y la optimización práctica del tiempo de inferencia para aplicaciones del mundo real.

Además, las leyes de escala y los resultados de punto de referencia enfatizan las compensaciones entre el entrenamiento previo, el ajuste, las estrategias de tiempo de inferencia y los algoritmos avanzados para la selección de resultados. Tanto los modelos más grandes como los más pequeños se benefician del escalado de inferencia, ya que también permite que los sistemas con recursos limitados se acerquen al rendimiento de los LLM de vanguardia. Este tutorial demuestra el impacto de las técnicas de optimización en el rendimiento del modelo, ofreciendo orientación aplicable en la práctica para equilibrar la precisión, la latencia y el costo en despliegues de RAG multimodales.

Este tutorial está diseñado para desarrolladores, investigadores y entusiastas de la inteligencia artificial que buscan mejorar sus conocimientos sobre gestión de documentos y técnicas avanzadas de procesamiento de lenguaje natural (PLN). Aprenderá a aprovechar el poder del escalado de inferencia para mejorar el pipeline de RAG multimodal creado en una receta anterior. Si bien este tutorial se centra en estrategias de escalabilidad en RAG multimodal centrado específicamente en modelos de lenguaje grandes de IBM® Granite, principios similares son aplicables a los modelos más populares, incluidos los de OpenAI (por ejemplo, GPT-4, GPT-4o, ChatGPT) y DeepMind.