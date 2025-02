Memproses data sebelum memasukkannya ke dalam sistem RAG merupakan langkah penting untuk memastikan bahwa data input dalam format yang sesuai untuk model. Metode sederhana melibatkan pemecahan data input menjadi potongan-potongan berukuran tetap dengan tumpang tindih, misalnya, 10 karakter terakhir dari sebuah potongan adalah 10 karakter pertama yang sama dengan karakter berikutnya, tetapi hal ini dapat menghilangkan nuansa dalam data input.

Pra-pemrosesan yang lebih canggih dapat memanipulasi teks input untuk menghapus akhiran kata umum, misalnya. stopper, stopping, dan stopped semua menjadi stop; hilangkan kata 'stop' yang tidak informatif seperti the, as, is, dan sejenisnya; dan teknik-teknik lainnya. Hal ini secara substansial dapat meningkatkan relevansi informasi yang diambil, tetapi menambah kompleksitas pada fase penyematan data dan permintaan pengguna.

Bahkan teknik yang lebih maju dapat beroperasi pada kalimat penuh, untuk menjaga sebanyak mungkin makna dalam teks.