El desarrollo de la generación aumentada por recuperación (RAG), que conecta los LLM a fuentes de datos externas, requirió la creación de sistemas de fragmentación. Los sistemas RAG surgieron para ayudar a contrarrestar el problema de las alucinaciones: cuando los LLM ofrecían respuestas que no reflejaban resultados o información del mundo real.
Los sistemas RAG ayudan a los LLM a generar respuestas más precisas y útiles combinándolas con bases de conocimiento adicionales. En muchos casos, las bases de conocimiento de RAG son bases de datos vectoriales que contienen documentos que dan acceso al LLM conectado a conocimientos específicos del dominio. Los modelos de incorporación convierten documentos en vectores matemáticos, luego hacen lo mismo para las consultas de los usuarios.
El sistema RAG encuentra incorporaciones dentro de su base de datos vectorial que representan información relevante y coinciden con la consulta del usuario. Luego, el LLM utiliza los datos recuperados para proporcionar a los usuarios respuestas más relevantes y precisas.
Pero debido a las limitaciones de la ventana de contexto, el LLM no puede procesar un solo documento a la vez. La fragmentación surgió como la solución. Al dividir un documento en partes, el LLM puede encontrar eficientemente fragmentos relevantes en tiempo real mientras mantiene la comprensión contextual.