Avanços recentes em estratégias de inferência que aumentam Recursos computacionais e empregam algoritmos complexos no momento do teste estão redefinindo a forma como os LLMs lidam com tarefas de raciocínio complexas e oferecem saídas de maior qualidade em diversas modalidades de entrada. O dimensionamento de inferência otimiza a cadeia de pensamento (CoT) expandindo a profundidade do raciocínio. Essa expansão permite que os modelos produzam cadeias de pensamento mais longas e detalhadas por meio de prompts iterativos ou geração de várias etapas. A escala de inferência pode ser aproveitada para melhorar a RAG multimodal, com foco na interação entre tamanhos de modelos, orçamentos de computadores e a otimização prática do tempo de inferência para aplicações do mundo real.

Além disso, as leis de escala e os resultados de benchmarkd enfatizam as trocas entre pré-treinamento, ajuste fino, estratégias de tempo de inferência e algoritmos avançados para seleção de saída. Tanto os modelos maiores quanto os menores se beneficiam do dimensionamento de inferência, pois ele também permite que sistemas com recursos limitados se aproximem do desempenho de LLMs de ponta. Este tutorial demonstra o impacto das técnicas de otimização no desempenho do modelo, oferecendo orientações praticáveis para equilibrar precisão, latência e custo em implementações da RAG multimodal.

Este tutorial foi criado para desenvolvedores, pesquisadores e entusiastas de inteligência artificial que desejam aprimorar seus conhecimentos sobre gerenciamento de documentos e técnicas avançadas de processamento de linguagem natural (NLP). Você aprenderá a aproveitar o poder do dimensionamento de inferência para aprimorar o pipeline da RAG multimodal criado em uma receita anterior. Embora este tutorial se concentre em estratégias para escalabilidade na RAG multimodal focada especificamente em grandes modelos de linguagem do IBM® Granite, princípios semelhantes são aplicáveis aos modelos mais populares, incluindo os da OpenAI (por exemplo, GPT-4, GPT-4o, ChatGPT) e da DeepMind .