Lo sviluppo di retrieval-augmented generation (RAG), che collega gli LLM a fonti di dati esterne, ha richiesto la creazione di sistemi di chunking. I sistemi RAG sono emersi per aiutare a contrastare il problema delle allucinazioni: quando gli LLM fornivano risposte che non riflettevano i risultati o le informazioni del mondo reale.
I sistemi RAG aiutano gli LLM a generare risposte più accurate e più utili abbinandole a ulteriori knowledge base. In molti casi, le knowledge base RAG sono database vettoriali contenenti documenti che danno all'LLM connesso l'accesso a conoscenze specifiche del dominio. I modelli di embedding convertono i documenti in vettori matematici, quindi operano allo stesso modo nel caso delle query degli utenti.
Il sistema RAG trova embedding all'interno del proprio database vettoriale che rappresentano informazioni pertinenti e corrispondono alla richiesta dell'utente. Quindi, l'LLM utilizza i dati recuperati per fornire agli utenti risposte più pertinenti e accurate.
Tuttavia, a causa delle limitazioni della finestra di contesto, l'LLM non è in grado di elaborare un singolo documento immediatamente. Il chunking è risultato come la soluzione. Suddividendo un documento in pezzi, l'LLM può trovare in modo efficiente blocchi pertinenti in tempo reale mantenendo la comprensione del contesto.