A geração aumentada de recuperação (RAG) conecta um LLM a uma fonte externa de dados para expandir sua base de conhecimento. Quando um usuário envia uma consulta, o sistema RAG pesquisa no banco de dados emparelhado em busca de informações relevantes e, em seguida, combina isso com a consulta para dar ao LLM mais contexto ao gerar uma resposta.

O RAG usa embeddings para transformar um banco de dados, código-fonte ou outras informações em um banco de dados de vetores pesquisável. Os embeddings plotam matematicamente cada ponto de dados em um espaço vetorial tridimensional. Para encontrar dados relevantes, o modelo de recuperação de informações em um sistema RAG converte as consultas do usuário em embeddings e localiza embeddings semelhantes no banco de dados de vetores.

Os sistemas RAG normalmente seguem a mesma sequência padrão:

Prompting: o usuário envia um prompt na interface do usuário, como um chatbot impulsionado por IA. Consulta: um modelo de recuperação de informações converte o prompt em um embedding e consulta o banco de dados em busca de dados semelhantes. Recuperação: o modelo de recuperação recupera os dados relevantes do banco de dados. Geração: o sistema RAG combina os dados recuperados com a consulta do usuário e os envia ao LLM, que gera uma resposta. Entrega: o sistema RAG retorna a resposta gerada ao usuário.

O nome RAG se deve à forma como os sistemas RAG Recuperam dados relevantes e os utilizam para Aumentar a resposta Gerada pelo LLM. Sistemas RAG mais complexos introduzem componentes adicionais para refinar o processo e melhorar ainda mais a qualidade da resposta.