Laju pembelajaran penting karena memandu model AI dalam belajar secara efektif dari data pelatihannya.
Laju pembelajaran yang rendah tidak membuat model "belajar" cukup di setiap langkah. Model memperbarui parameternya terlalu lambat dan membutuhkan waktu terlalu lama untuk mencapai konvergensi. Tetapi itu tidak berarti bahwa laju pembelajaran yang tinggi adalah jawabannya.
Dengan laju pembelajaran yang tinggi, algoritma dapat menjadi korban overshooting: saat ia bertindak terlalu jauh dalam mengoreksi kesalahannya. Dalam kasus ini, algoritma membutuhkan laju pembelajaran yang lebih kecil, tetapi tidak terlalu kecil sehingga pembelajaran menjadi tidak efisien.
Misalnya, bayangkan ada alien yang datang untuk mempelajari kehidupan di Bumi. Alien itu mengamati kucing, anjing, kuda, babi, dan sapi, lalu menyimpulkan bahwa semua hewan memiliki empat kaki. Namun, ketika ia melihat seekor ayam, muncul pertanyaan: apakah ayam juga termasuk hewan? Bergantung pada seberapa cepat alien itu belajar, ia mungkin akan mengambil salah satu dari tiga kesimpulan berikut:
Pada laju pembelajaran yang optimal, alien akan menyimpulkan bahwa ayam juga merupakan hewan. Dan jika memang demikian, ini berarti jumlah kaki bukanlah penentu utama apakah sesuatu itu hewan atau bukan.
Jika alien memiliki laju pembelajaran yang rendah, ia tidak dapat memperoleh insight yang cukup dari ayam tunggal ini. Alien akan menyimpulkan bahwa ayam bukanlah hewan karena mereka tidak memiliki empat kaki. Laju pembelajaran alien yang kecil tidak memungkinkannya memperbarui pemikirannya sampai ia melihat lebih banyak ayam.
Pada laju pembelajaran yang tinggi, alien akan mengoreksi secara berlebihan. Sekarang, akan disimpulkan bahwa karena ayam adalah binatang, dan karena ayam memiliki dua kaki, maka semua hewan harus memiliki dua kaki. Tingkat pembelajaran yang tinggi berarti bahwa model belajar "terlalu banyak" sekaligus.
Laju pembelajaran yang berbeda akan memengaruhi hasil pelatihan model. Laju pembelajaran optimal memungkinkan algoritma menyesuaikan parameter secara efisien tanpa melewati titik konvergensi.