Model machine learning yang besar dan kompleks, seperti yang digunakan untuk model bahasa besar (LLM) seperti ChatGPT, memerlukan waktu yang lama dan sangat banyak sumber daya untuk menyiapkannya. Mereka mungkin memiliki triliunan parameter yang diatur ke nilai tertentu. Setelah proses ini selesai, model mungkin akan kuat dan akurat secara umum, tetapi belum tentu disempurnakan untuk melakukan tugas-tugas tertentu.
Mendapatkan model untuk bekerja dalam konteks tertentu dapat memerlukan banyak pelatihan ulang, mengubah semua parameternya. Dengan jumlah parameter dalam model seperti itu, pelatihan ulang ini mahal dan memakan waktu. LoRA menyediakan cara cepat untuk mengadaptasi model tanpa harus melatihnya kembali.
Sebagai contoh, penyempurnaan penuh model GPT-3 membutuhkan pelatihan 175 miliar parameter karena ukuran kumpulan data pelatihannya. Menggunakan LoRa, parameter yang dapat dilatih untuk GPT-3 dapat dikurangi menjadi sekitar 18 juta parameter, yang mengurangi kebutuhan memori GPU sekitar dua pertiga.
LoRa bukan satu-satunya metode penyempurnaan yang efisien. Varian LoRa adalah kuantisasi LoRa (QLoRa), teknik penyempurnaan yang menggabungkan teknik komputasi presisi tinggi dengan metode penyimpanan presisi rendah. Teknik ini membantu menjaga ukuran model tetap kecil sekaligus tetap memastikan bahwa kinerja model tetap sangat tinggi dan akurat.