Model penalaran tidak segera memberikan respons langsung terhadap input pengguna, tetapi dilatih untuk terlebih dahulu menghasilkan "langkah penalaran" perantara sebelum sampai pada jawaban akhir yang diberikan kepada pengguna. Beberapa LLM penalaran menunjukkan jejak penalaran kepada pengguna, sementara yang lain hanya meringkas atau sama sekali menyembunyikan output antara ini.
Sederhananya, LLM penalaran dilatih untuk menggunakan lebih banyak waktu “berpikir” sebelum mereka merespons. Penambahan "proses penalaran" ini telah terbukti secara empiris menghasilkan kemajuan besar dalam kinerja LLM pada tugas-tugas penalaran yang kompleks. Keberhasilan ini telah memperluas contoh penggunaan dunia nyata dan domain tempat model AI dapat diterapkan, menandai titik infleksi penting dalam pengembangan berkelanjutan AI generatif dan agen AI.
Namun demikian, perlu dicatat, bahwa istilah antropomorfis seperti "proses berpikir" sebuah model lebih mudah dipahami daripada secara harfiah. Seperti semua model machine learning, model penalaran pada akhirnya hanya menerapkan algoritma canggih untuk membuat prediksi—seperti kata apa yang akan muncul selanjutnya—yang mencerminkan pola yang dipelajari dari data pelatihan. LLM penalaran belum menunjukkan kesadaran atau tanda-tanda kecerdasan umum buatan (AGI) lainnya. Penelitian AI yang diterbitkan oleh Apple pada bulan Juni 2025 menimbulkan keraguan apakah kemampuan penalaran model saat ini dapat berkembang menjadi penalaran yang benar-benar "dapat diterapkan secara luas".1
Mungkin lebih tepat jika dikatakan bahwa LLM penalaran dilatih untuk "menunjukkan hasil kerjanya" dengan menghasilkan sekuens token (kata) yang menyerupai proses berpikir manusia—dan bahwa tindakan "memverbalisasikan" pikiran tampaknya membuka kemampuan penalaran laten yang secara implisit dipelajari oleh LLM dari korpus data pelatihan mereka yang sangat banyak (yang berisi contoh-contoh masing-masing model yang secara langsung maupun tidak langsung mengartikulasikan proses mereka sendiri).
Konsep "model penalaran" diperkenalkan oleh o1-preview (dan o1-mini) dari OpenAI pada bulan September 2024,2 diikuti oleh "Qwen with Questions" dari Alibaba (QwQ-32B-preview) pada bulan November dan Gemini 2.0 Flash Experiment dari Google pada bulan Desember. Tahapan penting dalam pengembangan LLM penalaran adalah rilis Januari 2025 dari model sumber terbuka DeepSeek-R1. Sementara proses pelatihan yang digunakan untuk menyempurnakan model penalaran sebelumnya merupakan rahasia yang dijaga dengan ketat, DeepSeek merilis makalah teknis terperinci yang menyediakan cetak biru untuk pengembang model lainnya. IBM Granite, Anthropic, dan Mistral AI, antara lain, telah merilis LLM penalaran mereka sendiri.