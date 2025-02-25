Os grandes modelos de linguagem (LLMs) gerados em grande escala transformaram as aplicações de IA; no entanto, ainda têm várias desvantagens, pois o seu conhecimento é estático e pode ser proveniente apenas dos seus dados de treinamento. É nesse momento que a geração aumentada de recuperação (RAG) entra em ação.
A RAG dá poder a modelos de IA generativa por meio da recuperação de dados em tempo real, garantindo que o processo de recuperação produza uma saída mais precisa e oportuna. No entanto, os modelos Rde AG apresentam diferentes formas, adequadas principalmente para diferentes aplicações1.
Neste artigo, exploramos várias técnicas de RAG, como elas funcionam, os pontos fortes e as limitações de cada tipo de RAG e sua usabilidade em vários casos de uso.
Para melhorar a eficácia geral e a sustentabilidade dos modelos de RAG, os sistemas de recuperação evoluíram de naïve RAG para RAG avançado e RAG modular para enfrentar desafios de desempenho, custo e eficiência. Vamos explorar cada técnica de RAG em detalhes.
A naïve RAG é uma implementação básica da geração aumentada de recuperação, em que a recuperação de informações e a geração de respostas são feitas sem otimizações ou feedback. Nesse ambiente simples, o sistema recupera dados relevantes com base em uma consulta, que é simplesmente inserida em um modelo de linguagem (como o GPT) para gerar a resposta final2.
A naïve RAG conta com um processo de três etapas bastante simples para recuperação e geração de conteúdo. As etapas a seguir explicam como o processo de recuperação funciona:
A Figura 1 ilustra o processo de três etapas (codificação, recuperação e geração de respostas) de como a naïve RAG funciona.
A Naïve RAG é mais adequada para cenários em que a simplicidade, a velocidade e a facilidade de implementação são fundamentais em relação à precisão e à flexibilidade avançadas. A simplicidade da arquitetura a torna ideal para construir aplicações de prova de conceito e permitir testes rápidos de ideias sem o ônus de ajustes de modelo complicados. Por exemplo, ela pode ser usado com eficácia em:
a. Chatbots de suporte ao cliente: lidar com cenários de perguntas repetitivas frequentes usando respostas de LLMs.
b. Resumo e recuperação de informações: fornecer um nível básico de resumo usando técnicas de processamento de linguagem natural.
c. Sistemas de IA para empresas: recuperação rápida de dados relevantes de repositórios para responder a consultas comuns.
Embora a naïve RAG seja simples e rápida, a RAG avançada oferece maior flexibilidade, escalabilidade e desempenho, tornando-a adequada para aplicações complexas do mundo real.
Vamos entender o que é uma RAG avançada e quais ofertas importantes ela oferece.
A RAG avançada combina o poder de melhor recuperação e geração usando algoritmos sofisticados — uma série de ideias, como rerankers, LLMs com ajuste fino e ciclos de feedback. Essas melhorias trazem aprimoramentos na precisão, na adaptabilidade e no desempenho que tornam esses modelos as melhores opções para aplicações mais complexas de nível de produção5.
A RAG avançada funciona como um processo sequencial baseado em etapas da seguinte forma:
1. Processamento de consultas: ao receber uma consulta do usuário, ela é transformada em um vetor de alta dimensão usando o modelo de embedding que captura o significado semântico da consulta.
2. Recuperação de documentos: a consulta codificada atravessa um enorme banco de dados de conhecimento que fornece recuperação híbrida usando pesquisa vetorial densa e recuperação esparsa, ou seja, similaridade semântica e pesquisa baseada em palavras-chave. Assim, os resultados introduzem correspondências de palavras-chave semânticas nos documentos recuperados.
3. Reclassificação de documentos recuperados: o recuperador fornece uma pontuação final com base no contexto e em relação à consulta que recupera os documentos.
4. Fusão contextual para geração: como cada documento é codificado de forma diferente, o decodificador funde todos os contextos codificados para garantir que as respostas geradas tenham coerência com a consulta codificada.
5. Geração de respostas: o gerador da RAG avançada, geralmente um LLM, como o modelo IBM Granite ou Llama, fornece a resposta com base nos documentos recuperados.
6. Ciclo de feedback: a RAG avançada usa várias técnicas, como aprendizado ativo, aprendizado por reforço e cotreinamento de recuperador-gerador para melhorar continuamente seu desempenho. Durante essa fase, ocorrem sinais implícitos, como cliques em documentos recuperados que deduzem relevância, causando feedback explícito que inclui correções ou classificações para aplicação adicional durante a geração. Portanto, ao longo dos anos, essas estratégias melhoram a recuperação, bem como os processos de geração de respostas, para que respostas mais precisas e relevantes possam ser produzidas6.
A Fig 2 ilustra o processo passo a passo de como a RAG avançada funciona.
A RAG avançada é extremamente versátil para uma variedade de aplicações em todos os setores devido ao recurso de recuperação de informações em tempo real e respostas dinâmicas, precisas e baseadas em contexto. Sua aplicação varia desde habilitar o atendimento ao cliente até trazer informações relevantes, melhorando assim a tomada de decisão e adicionando aprimoramento às experiências de aprendizado personalizadas. A recuperação e geração aprimoradas por meio da RAG avançada torna prático para aplicações em tempo real, mas a escalabilidade e a usabilidade estão abaixo do ideal para casos de uso em nível de produção.
A RAG modular é a variante mais avançada da RAG, onde a recuperação de informações e o modelo generativo funcionam em uma arquitetura linear aberta e composta, semelhante a um pipeline. Essa abordagem permite que diferentes casos de uso tenham um desempenho melhor com personalização e escalabilidade.
Ao desagregar o ato da RAG em módulos, pode-se adaptar, depurar e otimizar melhor cada componente de forma independente. Agora vamos ver como a RAG modular funciona em ações reais7.
1. Processamento de consultas do usuário: o primeiro passo é o usuário enviar uma consulta, como "Qual é o livro mais em alta no mercado atualmente?" Um módulo de processamento de consultas então transforma a entrada, o que pode incluir a reformulação da consulta, a remoção de ambiguidades e a realização de análise semântica para fornecer um contexto mais informado antes de ser enviada para recuperação.
2. Módulo de recuperação: o módulo de recuperação processa a consulta no banco de dados de vetores ou base de conhecimento para obter documentos relevantes. Ele realiza a recuperação usando o paradigma de similaridade baseado em embedding.
3. Módulo de filtragem e classificação: os documentos recuperados são então filtrados usando metadados, recência ou relevância. E um modelo de reclassificação pontua e prioriza as informações mais úteis.
4. Módulo de aumento de contexto: esse módulo alimenta informações recuperadas com gráficos de conhecimento, incorpora dados estruturados provenientes de bancos de dados e APIs e aplica compressão de recuperação para alcançar a melhor recuperação de conteúdo.
5. Geração de respostas: o LLM processa a consulta do usuário juntamente com o contexto recuperado para gerar uma resposta coerente e precisa, minimizando alucinações e garantindo relevância.
6. Módulo de pós-processamento: esse módulo garante a precisão por meio da verificação de fatos, melhora a legibilidade com formatação estruturada e aumenta a credibilidade gerando citações.
7. Produção e o ciclo de feedback: a saída final da resposta é apresentada ao usuário enquanto um ciclo de feedback é criado a partir de sua interação para auxiliar no aprimoramento da recuperação e no desempenho do modelo ao longo do tempo.
A Fig 3 ilustra o processo passo a passo de como a RAG modular funciona.
A RAG avançada se encaixa em casos de uso em que a aplicação exige imensa personalização, como por exemplo, técnicas de recuperação e classificação específicas do domínio. A escalabilidade e a capacidade de manutenção são importantes para aplicações que envolvem sistemas de grande escala e há experimentação contínua com diferentes modelos e estratégias de recuperação8.
Enquanto a naïve RAG é simples e rápida, a RAG modular (geralmente construída com frameworks como o LangChain) fornece flexibilidade, escalabilidade e desempenho aprimorados, tornando-o mais adequado para aplicações intrincadas, reais e do mundo real. A RAG avançada melhora a precisão recuperando informações específicas do contexto em tempo real que ajudam a minimizar os erros. Ela se adapta de forma dinâmica, incorporando feedback do usuário por meio de aprendizado ativo e aprendizado por reforço (RLHF). Além disso, reforça o conhecimento específico do domínio através da integração de bancos de dados especializados. Também otimiza a janela de contexto do LLM, buscando apenas os dados mais pertinentes, aumentando assim a eficiência. No entanto, os sistemas de RAG avançada encontram desafios como maiores demandas de computação e latência devido aos processos de recuperação e geração. Eles exigem recursos significativos para gerenciar bases de conhecimento extensas e envolvem implementação e manutenção complexas – especialmente ao ajustar recuperadores, modelos de classificação e geradores de respostas. É nesse espaço que as arquiteturas de RAG modular desenvolvidas usando o LangChain se destacam. Seu design modular permite personalização flexível, permitindo que componentes individuais, como recuperadores, classificadores e geradores, sejam ajustados ou trocados de forma independente. Esse método aprimora a capacidade de manutenção, pois facilita a depuração e as atualizações sem interromper todo o sistema. A escalabilidade é alcançada por meio da distribuição de módulos em vários recursos, enquanto os custos são gerenciados por meio da otimização de processos de recuperação e da minimização do uso de LLM 9, 10.
Desenvolvimento ativo em sistemas de recuperação que aproveite técnicas avançadas de engenharia de prompts e métodos de ajuste fino para aprimorar modelos de RAG para geração de conteúdo de alta precisão está ocorrendo para garantir melhor desempenho e escalabilidade.
Os avanços futuros nas abordagens autoRAG, nos modelos de IA multimodal e nas métricas aprimoradas continuarão a refinar o processo de recuperação, garantindo um melhor tratamento do contexto adicional nas interações em linguagem natural.
1. Gao, Y., Zhang, Z., Peng, M., Wang, J. r Huang, J. (2023). Retrieval-Augmented Generation for Large Language Models: A Survey. arXiv preprint arXiv:2312.10997.
2. Wu, S., Wang, D., Lin, Z., Yang, Y., Li, H. eLi, Z. (2024). Retrieval-Augmented Generation for Natural Language Processing: A Survey. arXiv preprint arXiv:2407.13193.
3. Huang, Y. e Huang, J. (2024). A Survey on Retrieval-Augmented Text Generation for Large Language Models. arXiv preprint arXiv:2404.10981.
4. Li, S., Stenzel, L., Eickhoff, C. e Bahrainian, S. A. (2025). Enhancing Retrieval-Augmented Generation: A Study of Best Practices. Proceedings of the 31st International Conference on Computational Linguistics, 6705–6717.
5. Sakar, T. e Emekci, H. (2024). Maximizing RAG Efficiency: A Comparative Analysis of RAG Methods. Natural Language Processing, 1–15.
6. Su, W., Tang, Y., Ai, Q., Wu, Z. e Liu, Y. (2024). DRAGIN: Dynamic Retrieval Augmented Generation based on the Information Needs of Large Language Models. arXiv preprint arXiv:2403.10081.
7. Gao, Y., Xiong, Y., Wang, M. e Wang, H. (2024). Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks. arXiv preprint arXiv:2407.21059.
8. Shi, Y., Zi, X., Shi, Z., Zhang, H., Wu, Q. e Xu, M. (2024). Enhancing Retrieval and Managing Retrieval: A Four-Module Synergy for Improved Quality and Efficiency in RAG Systems. arXiv preprint arXiv:2407.10670.
9. Zhu, Y., Yang, X., Zhang, C. eDou, Z. (2024). Future Trends and Research Directions in Retrieval-Augmented Generation. Computational Intelligence and Neuroscience, 2024, 1–15.
10. Atos. 2024. A Practical Blueprint for Implementing Generative AI Retrieval-Augmented Generation. Atos. Acessado em 12 de fevereiro de 2025.
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.
Aprenda como os CEOs podem equilibrar o valor que a IA generativa pode criar com o investimento que ela exige e os riscos que ela introduz.
Aprenda conceitos fundamentais e desenvolva suas habilidades com laboratórios práticos, cursos, projetos guiados, avaliações e muito mais.
Saiba como incorporar com confiança a IA generativa e o aprendizado de máquina em sua empresa.
Quer ter mais retorno sobre seus investimentos em IA? Saiba como o dimensionamento da IA generativa em áreas importantes promove mudanças, ajudando suas melhores mentes a criar e oferecer soluções novas e inovadoras.
Entrevistamos duas mil organizações a respeito de suas iniciativas de IA para descobrir o que está funcionando, o que não está e como se preparar.
O IBM® Granite é nossa família de modelos de IA abertos, de alto desempenho e confiáveis, personalizados para a empresa e otimizados para escalar suas aplicações de IA. Explore as opções de linguagens, código, séries temporais e proteções.
Saiba como selecionar o modelo de base de IA mais adequado para seu caso de uso.
Treine, valide, ajuste e implemente IA generativa, modelos fundacionais e recursos de machine learning com o IBM watsonx.ai, um estúdio empresarial de última geração para desenvolvedores de IA. Crie aplicações de IA em uma fração do tempo e com muito menos dados.