O desenvolvimento da geração aumentada de recuperação (RAG)— conectando LLMs a fontes de dados externas — exigiu a criação de sistemas de fragmentação. Os sistemas de RAG surgiram para ajudar a combater o problema das alucinações: quando os LLMs forneciam respostas que não refletiam resultados ou informações do mundo real.
Os sistemas de RAG ajudam os LLMs a gerar respostas mais precisas e úteis, combinando-os com bases de conhecimento adicionais. Em muitos casos, as bases de conhecimento da RAG são bancos de dados de vetores contendo documentos que dão ao LLM conectado acesso ao conhecimento específico do domínio. O embedding de modelos converte documentos em vetores matemáticos, então faz o mesmo para consultas de usuários.
O sistema de RAG encontra embeddings dentro de seu banco de dados de vetores, que representam informações relevantes e correspondem à consulta do usuário. Em seguida, o LLM usa os dados recuperados para fornecer aos usuários respostas mais relevantes e precisas.
No entanto, devido às limitações da janela de contexto, o LLM não consegue processar um único documento de uma só vez. A fragmentação surgiu como a solução. Ao dividir um documento em partes, o LLM pode encontrar partes fragmentos em tempo real e, ao mesmo tempo, manter a compreensão contextual.