Apa itu model penalaran?

Penulis

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Apa yang dimaksud dengan model penalaran?

Model penalaran adalah model bahasa besar (LLM) yang telah disempurnakan untuk memecah masalah kompleks menjadi langkah-langkah yang lebih kecil, yang sering disebut "jejak penalaran", sebelum menghasilkan output. Sarana model pelatihan yang makin canggih untuk menggunakan penalaran rantai pemikiran dan strategi pengambilan keputusan multi-langkah lainnya telah menghasilkan kinerja canggih, terutama pada tolok ukur untuk tugas-tugas yang digerakkan oleh logika seperti matematika dan pengodean.

Model penalaran tidak segera memberikan respons langsung terhadap input pengguna, tetapi dilatih untuk terlebih dahulu menghasilkan "langkah penalaran" perantara sebelum sampai pada jawaban akhir yang diberikan kepada pengguna. Beberapa LLM penalaran menunjukkan jejak penalaran kepada pengguna, sementara yang lain hanya meringkas atau sama sekali menyembunyikan output antara ini.

Sederhananya, LLM penalaran dilatih untuk menggunakan lebih banyak waktu “berpikir” sebelum mereka merespons. Penambahan "proses penalaran" ini telah terbukti secara empiris menghasilkan kemajuan besar dalam kinerja LLM pada tugas-tugas penalaran yang kompleks. Keberhasilan ini telah memperluas contoh penggunaan dunia nyata dan domain tempat model AI dapat diterapkan, menandai titik infleksi penting dalam pengembangan berkelanjutan AI generatif dan agen AI.

Namun demikian, perlu dicatat, bahwa istilah antropomorfis seperti "proses berpikir" sebuah model lebih mudah dipahami daripada secara harfiah. Seperti semua model machine learning, model penalaran pada akhirnya hanya menerapkan algoritma canggih untuk membuat prediksi—seperti kata apa yang akan muncul selanjutnya—yang mencerminkan pola yang dipelajari dari data pelatihan. LLM penalaran belum menunjukkan kesadaran atau tanda-tanda kecerdasan umum buatan (AGI) lainnya. Penelitian AI yang diterbitkan oleh Apple pada bulan Juni 2025 menimbulkan keraguan apakah kemampuan penalaran model saat ini dapat berkembang menjadi penalaran yang benar-benar "dapat diterapkan secara luas".1

Mungkin lebih tepat jika dikatakan bahwa LLM penalaran dilatih untuk "menunjukkan hasil kerjanya" dengan menghasilkan sekuens token (kata) yang menyerupai proses berpikir manusia—dan bahwa tindakan "memverbalisasikan" pikiran tampaknya membuka kemampuan penalaran laten yang secara implisit dipelajari oleh LLM dari korpus data pelatihan mereka yang sangat banyak (yang berisi contoh-contoh masing-masing model yang secara langsung maupun tidak langsung mengartikulasikan proses mereka sendiri). 

Konsep "model penalaran" diperkenalkan oleh o1-preview (dan o1-mini) dari OpenAI pada bulan September 2024,2 diikuti oleh "Qwen with Questions" dari Alibaba (QwQ-32B-preview) pada bulan November dan Gemini 2.0 Flash Experiment dari Google pada bulan Desember. Tahapan penting dalam pengembangan LLM penalaran adalah rilis Januari 2025 dari model sumber terbuka DeepSeek-R1. Sementara proses pelatihan yang digunakan untuk menyempurnakan model penalaran sebelumnya merupakan rahasia yang dijaga dengan ketat, DeepSeek merilis makalah teknis terperinci yang menyediakan cetak biru untuk pengembang model lainnya. IBM Granite, Anthropic, dan Mistral AI, antara lain, telah merilis LLM penalaran mereka sendiri.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Mengapa model penalaran bekerja?

Menambahkan "proses berpikir" pada output model mengurangi banyak kelemahan yang melekat pada inferensi LLM standar dengan membantu model menghindari jalan pintas kognitif yang berbahaya dan memunculkan lebih banyak pengetahuan yang berpotensi relevan yang dipelajari dari data pelatihan.

Dalam konteks penalaran LLM, literatur penelitian AI sering merujuk pada pemikiran Sistem 1” dan “Sistem 2”, istilah yang diciptakan oleh ekonom perilaku pemenang Hadiah Nobel Daniel Kahneman dalam bukunya Thinking, Fast and Slow. Pemikiran Sistem 1 cepat, tidak sadar dan intuitif, mengandalkan heuristik dan memerlukan sedikit atau tanpa usaha. Pemikiran sistem 2 lambat, terencana dan logis, membutuhkan upaya terpadu. LLM autoregresif, secara default, cenderung menggunakan pemikiran Sistem 1.3

Untuk beberapa tugas, pemikiran Sistem 1 efektif dan efisien secara komputasi. Tetapi bagi banyak tugas lain, pemikiran impulsif Sistem 1 gagal. Misalnya, makalah tahun 2023 dari peneliti Meta Jason Weston dan Sainbayar Sukhbaatar mencatat bagaimana LLM mudah terpengaruh oleh adanya konteks yang tidak relevan atau detail subjektif dalam prompt input.

Contoh LLM Contoh bagaimana LLM yang tidak beralasan sering "terganggu" oleh informasi yang tidak relevan. Diambil dari makalah "System 2 Attention (is something you might need too)".

Mereka mengusulkan rangkaian teknik yang mereka sebut “Perhatian Sistem 2” (S2A), di mana model diinstruksikan untuk terlebih dahulu menghasilkan versi tulisan ulang dari prompt input yang diambil dari konteks yang tidak relevan, kemudian menjawab prompt yang ditulis ulang itu. Dalam eksperimen, S2A mengungguli inferensi standar pada berbagai tugas, meningkatkan akurasi dan mengurangi tendensi "menjilat" (sycophancy).

Contoh LLM S2A, metode penskalaan inferensi awal. Dengan menambahkan langkah-langkah antara input dan respons—dalam hal ini, untuk menulis ulang prompt—model ini meningkatkan outputnya. Diambil dari makalah "System 2 Attention (is something you might need too)".

Secara konseptual, tujuan implisit dari pendekatan penalaran dapat dipahami sebagai penerapan perilaku model seperti Sistem 2 yang menjelajahi, mengevaluasi, dan menyempurnakan outputnya.

Langkah penting ini berasal dari penelitian awal LLM yang menunjukkan bahwa hanya dengan menambahkan frasa "pikirkan langkah demi langkah"—yang disebut pemberian prompt rantai pemikiran—sangat meningkatkan output model.4,5 Sebuah makalah tahun 2024 dari Google DeepMind membuat pernyataan meyakinkan yang lebih luas lagi: meningkatkan komputasi waktu uji (sumber daya yang digunakan untuk menghasilkan output) akan meningkatkan kinerja model sebanyak meningkatkan komputasi waktu pelatihan (sumber daya yang digunakan untuk melatih model).6 Pemberian prompt CoT hanyalah satu dari banyak teknik penskalaan inferensi seperti itu, seperti halnya S2A.

LLM penalaran modern melangkah lebih jauh: tidak mengandalkan prompt, tetapi menggunakan teknik penyempurnaan baru dan alur kerja canggih untuk secara intrinsik meningkatkan jumlah komputasi yang digunakan model pada waktu inferensi. Optimalisasi model penalaran menimbulkan tantangan teknis dalam mengembangkan algoritma dan data pelatihan serta tantangan filosofis dalam merancang "proses berpikir" yang ideal.

Cara kerja model penalaran

Tahap awal pelatihan LLM penalaran mencerminkan LLM konvensional. Seperti LLM standar, model penalaran mendapatkan fasilitas linguistik umum dan pengetahuan dunia mereka dari pra-pelatihan mandiri skala besar, diikuti oleh sejumlah penyempurnaan yang diawasi (SFT) untuk menyesuaikannya dengan tugas-tugas hilir (seperti penggunaan chatbot percakapan). Inovasi utamanya adalah pengaplikasian teknik pembelajaran penguatan (RL) baru yang mendorong model untuk menghasilkan “langkah penalaran” perantara pada waktu inferensi sebelum menghasilkan output akhir.

Penelitian dan eksperimen selama bertahun-tahun telah menghasilkan beragam pendekatan penalaran yang berkembang secara eksponensial, tetapi semuanya memiliki tujuan mendasar yang sama, yaitu meningkatkan komputasi waktu pengujian. Selain LLM dasar (atau yang disetel sesuai instruksi) yang berfungsi sebagai fondasinya, model penalaran dibedakan oleh strategi pengambilan keputusan spesifik yang dilatihkan untuk diterapkan dan algoritma khusus yang digunakan untuk mendorong perilaku itu.

Secara garis besar, ada 2 metode utama untuk meningkatkan komputasi yang digunakan pada waktu inferensi. Tujuan dari penyempurnaan model penalaran adalah melatihnya untuk menggunakan salah satu (atau kedua) pendekatan yang luas ini melalui berbagai algoritma pembelajaran.

  • Menghasilkan output lebih panjang: Model ini belajar untuk menghasilkan output yang lebih panjang melalui strategi yang mencakup rantai pemikiran yang panjang, penelusuran balik, dan penyempurnaan mandiri.

  • Menghasilkan beberapa output: Alih-alih menghasilkan satu output sebagai respons terhadap prompt, model menghasilkan beberapa iterasi output dan mencapai jawaban akhirnya melalui proses pencarian, penolakan, dan agregasi output potensial.  

Sifat dari paradigma pembelajaran yang menghasilkan model penalaran biasanya memerlukan pelatihan dan evaluasi pada masalah yang solusinya dapat diverifikasi, seperti tugas pengodean atau masalah matematika. Metrik tolok ukur yang digunakan untuk mengevaluasi kinerja model penalaran oleh karena itu biasanya berfokus pada domain tersebut. Masih sedikit penelitian yang dilakukan mengenai dampak penalaran dalam domain yang lebih subjektif, seperti penulisan kreatif.

Penyempurnaan penguatan

Inti dari kemunculan LLM penalaran adalah kemajuan penyempurnaan berbasis RL, yang terdiri dari RL berbasis aturan dan RL berdasarkan pembelajaran mendalam ("deep RL") dalam konteks LLM. Sementara pembelajaran yang diawasi dan pembelajaran mandiri membutuhkan tugas pelatihan statis yang terdefinisi dengan baik, RL sangat cocok untuk jenis tugas yang dinamis, terbuka, dan kompleks di mana penalaran multi-langkah sangat berguna.

Penggunaan RL untuk penyempurnaan LLM dengan cara yang memberikan kualitas abstrak tidak hanya dilakukan untuk model penalaran. Misalnya, jalur pelatihan standar untuk LLM yang akan digunakan dalam pengaturan chatbot adalah sebagai berikut:

  1. Prapelatihan yang diawasi mandiri, di mana model mempelajari pola linguistik dan pengetahuan dasar untuk diterapkan pada tugas-tugas hilir.

  2. Penyempurnaan yang diawasi (SFT), di mana model mempelajari cara memformat responsnya dengan benar terhadap input pengguna.

  3. Penyetelan instruksi, di mana model belajar cara mengikuti instruksi dan melakukan tugas-tugas tertentu.

  4. Pembelajaran penguatan dari umpan balik manusia (RLHF), di mana model ini disempurnakan sesuai dengan data preferensi manusia untuk menanamkan kualitas subjektif seperti sifat suka menolong, tidak berbahaya, kejujuran, dan nada yang ideal.

LLM Penalaran biasanya menjalani tahap pelatihan yang sama, dengan tambahan (pada titik tertentu) tahap pembelajaran penguatan yang menanamkan proses penalaran berbasis CoT yang produktif. Hal ini dicapai dengan mendefinisikan tujuan dari proses penalaran ini—perilaku model tertentu yang akan "diberi reward", seperti menghasilkan jejak penalaran CoT sebelum output akhir—dan kemudian mengoptimalkan bobot model dengan cara yang memaksimalkan penghargaan.

Karena sulit atau bahkan tidak mungkin untuk merancang fungsi penghargaan eksplisit untuk tugas seabstrak dan serumit proses penalaran yang akan efektif untuk semua pemecahan masalah yang kompleks, sinyal reward ini sering kali berasal dari model reward terpisah yang digunakan selama pelatihan.Dalam RLHF, model reward ini dilatih berdasarkan masukan dari manusia dan belajar untuk memprediksi skor numerik untuk seberapa besar manusia lebih menyukai respons yang diberikan.

Dalam konteks RL untuk model penalaran, sinyal reward dapat dibagi menjadi 3 kategori: model reward hasil (ORM), model reward proses (PRM), dan sistem reward berbasis aturan.

Model reward outcome (ORM)

ORM, seperti namanya, memverifikasi keakuratan output final model penalaran dan memberikan sinyal reward yang digunakan untuk mengoptimalkan bobot model yang sesuai. Model ini secara sekilas mirip dengan peran fungsi kerugian dalam pembelajaran yang diawasi, meskipun mekanismenya seringkali lebih kompleks.

Sementara fungsi kerugian biasanya mengukur perbedaan token per token antara output model dan kebenaran dasar, ORM yang efektif harus dapat mengenali jawaban yang benar untuk masalah matematika meskipun disajikan sangat berbeda dari jawaban kebenaran dasar yang tersedia, yang sering kali terjadi karena variabilitas yang tinggi dari output CoT yang panjang. Demikian juga, sebagian besar masalah pengodean dunia nyata memiliki beberapa solusi: mengevaluasi output kode secara holistik biasanya memerlukan pipeline data yang secara efisien mengeksekusi dan memverifikasi efikasi cuplikan kode. Kualitas output lainnya, seperti apakah output mengikuti format atau instruksi yang ditentukan, dapat menggunakan LLM standar sebagai verifikator.

Meskipun merupakan solusi yang relatif sederhana dan efisien secara komputasi, ORM berpotensi memberi imbalan pada situasi di mana langkah penalaran yang salah tetap mengarah pada jawaban akhir yang benar, sehingga model tersebut mempelajari proses penalaran yang kurang optimal.

Model reward proses (PRM)

PRM memberi nilai dan reward (atau penalti) pada setiap langkah penalaran individu secara terpisah, bukan hanya berfokus pada keakuratan jawaban akhir. Hal ini memberikan sinyal reward yang lebih halus dan penyesuaian model selanjutnya, menghasilkan model dengan proses penalaran yang lebih kuat dan mudah ditafsirkan.

Namun demikian, PRM lebih mahal dan memakan waktu untuk dilatih dan diterapkan. Pendekatan awal yang berpengaruh terhadap PRM hampir seluruhnya bergantung pada pelabelan data yang melelahkan dari anotator manusia.7 Pendekatan lain mengotomatiskan proses ini dengan menyimpulkan validitas langkah penalaran berdasarkan seberapa sering langkah tersebut menghasilkan jawaban yang benar.8

Sistem imbalan berbasis aturan

Untuk menghindari biaya dan kerumitan model reward, beberapa pendekatan penyempurnaan berbasis RL mendesain tugas pelatihan dengan cara yang menyederhanakan tindakan mengevaluasi output. Misalnya, teknik DeepSeek-R1 dan R1-Zero memberi prompt kepada model untuk memformat jawaban akhir dalam kotak terpisah, memungkinkan verifikasi akurasi tanpa model reward khusus yang harus mengurai seluruh respons. Sistem reward berbasis aturan lainnya mendorong tindakan mikro tertentu, seperti menambahkan "tunggu" di akhir respons untuk mendorong lebih banyak eksplorasi dan koreksi mandiri, yang dapat dengan mudah diverifikasi.9

DeepSeek-R1-Zero: RL Murni

Teknik penyempurnaan penguatan yang sederhana, ilustratif, dan sangat berpengaruh dipelopori oleh DeepSeek dalam pelatihan model penalaran eksperimental R1-Zero sumber terbuka mereka.

Dengan menggunakan DeepSeek-V3 sebagai basis, DeepSeek langsung beralih dari prapelatihan ke skema pembelajaran penguatan berbasis aturan yang sangat sederhana:

  • Kueri model: Ajukan pertanyaan kepada model. Berikan prompt untuk menghasilkan output proses pemikiran di antara token ”<think> " dan "</think> ”, memberikan output jawaban akhir di antara token “<answer> " dan "</answer> ”.

  • Imbalan akurasi: Memberi imbalan kepada model atas kualitas jawaban akhirnya, seperti seberapa baik kode yang dibuatnya berjalan.

  • Imbalan format: Memberi imbalan kepada model karena menggunakan format "<think> </think> " dan "<answer> </answer> ” dengan benar dalam respons.

Anehnya, tanpa instruksi eksplisit untuk melakukannya, Deepseek-R1-Zero belajar untuk menghasilkan rantai pemikiran yang kompleks dan menggunakan strategi penalaran yang menghasilkan kinerja yang mengesankan pada tugas matematika dan penalaran. Dengan kata lain, hanya diberi mandat untuk “berpikir” sebelum mengeluarkan jawaban akhir dan memaksimalkan keakuratan jawaban akhir, model secara alami menjelajahi dan “menemukan” pola penalaran optimal.

Dari sudut praktik, pendekatan yang dilucuti ini memiliki kelemahan penting: seperti yang dijelaskan dalam makalah teknis, "DeepSeek-R1-Zero menghadapi tantangan seperti pengulangan yang tak ada habisnya, keterbacaan yang buruk, dan pencampuran bahasa." Namun demikian, pendekatan RL murni ini berfungsi sebagai dasar bagi metodologi yang lebih disempurnakan yang menghasilkan model Deepseek-R1 yang luar biasa populer.

Pendekatan berbasis pencarian dan sampel

Sementara sebagian besar paradigma RL berbasis CoT bertujuan untuk mengoptimalkan efikasi satu output model, metode lain menghasilkan beberapa output akhir atau perantara dengan tujuan untuk mengidentifikasi dan mendorong langkah-langkah penalaran terbaik.

Banyak pendekatan semacam itu bergantung pada algoritma pengoptimalan berbasis pencarian, seperti Monte Carlo tree search (MCTS), untuk menghasilkan dan menjelajahi beberapa langkah penalaran potensial berikutnya dan mengevaluasinya berdasarkan kualitas langkah berikutnya dan jawaban akhir yang mungkin dihasilkan. Reward kemudian secara berulang dipropagasi balik melalui jalur penalaran yang mengarah pada hasil yang diinginkan, dan bobot dioptimalkan dengan cara yang meningkatkan kemungkinan langkah-langkah penalaran tersebut. Hal ini sangat berguna untuk tugas-tugas penalaran dengan berbagai macam keputusan potensial yang sangat besar atau yang membutuhkan perencanaan jangka panjang yang ekstensif untuk mendapatkan jawaban akhir yang akurat.

Pendekatan lain adalah konsistensi mandiri, juga disebut pemilihan jawaban terbanyak. Setiap tugas dimulai dengan pemberian prompt rantai pemikiran. Beberapa respons, masing-masing dengan jalur penalarannya sendiri, diambil sebagai sampel dari dekoder model. Jawaban akhir yang muncul paling konsisten di antara output sampel ditentukan sebagai jawaban yang optimal. Cara ini dapat digunakan baik sebagai strategi waktu inferensi untuk meminimalkan keacakan dan halusinasi atau sebagai sarana untuk menghasilkan data penalaran berkualitas tinggi untuk metode berbasis SFT.

Kelemahan utama dari metode tersebut adalah peningkatan latensi dan overhead komputasi yang ditimbulkan. Namun, beberapa penelitian menunjukkan bahwa model yang lebih kecil yang menggunakan algoritma inferensi berbasis pencarian atau sampel dapat menawarkan kompensasi efisiensi kinerja yang lebih baik daripada model yang lebih besar yang digunakan secara konvensional.10

SFT, transfer pengetahuan dan pendekatan peningkatan mandiri

Di antara cara yang paling mudah secara konseptual untuk penyempurnaan penalaran model adalah dengan hanya menggunakan pembelajaran yang diawasi menggunakan kumpulan data yang terdiri dari prompt input yang menantang dan output berbasis CoT yang sesuai.

Meskipun menggunakan metode konvensional untuk menyusun kumpulan data pelatihan “secara manual” melalui contoh yang ditulis manusia membutuhkan banyak waktu dan tenaga, proliferasi model penalaran dan teknik penskalaan inferensi sangat mempermudah pembuatan data pelatihan sintetis yang sesuai.  Penelitian yang dilakukan oleh Universitas Stanford dan Allen Institute untuk A1 menemukan bahwa setelah menyempurnakan mode Qwen2.5-32B-Instruct menggunakan kumpulan data pilihan yang terdiri dari 1.000 pasangan pertanyaan dan jejak penalaran, model “s1” mereka mengalahkan o1-preview OpenAI pada masalah matematika kompetisi.

Transfer pengetahuan juga dapat digunakan untuk mengajar model yang lebih kecil untuk meniru proses pemikiran model penalaran yang lebih besar, dengan menyempurnakannya melalui SFT secara langsung pada output yang dihasilkan oleh model “guru” yang lebih besar. DeepSeek menggunakan transfer pengetahuan, dengan DeepSeek-R1 sebagai guru, untuk membuat versi yang disesuaikan dengan penalaran dari berbagai ukuran model Qwen dan Llama.

Metode lain bertujuan untuk melakukan bootstrap pada kumpulan data prompt dan output CoT yang sesuai melalui proses "perbaikan mandiri" model. Self-Taught Reasoner (STaR) memberikan sejumlah kecil contoh jejak penalaran yang efektif, kemudian memberikan prompt kepada model untuk menghasilkan jawaban dan alasan untuk sejumlah besar pertanyaan sampel. Model ini kemudian disempurnakan dengan alasan yang pada akhirnya menghasilkan jawaban yang benar, setelah itu prosesnya diulang secara berulang.11 Reinforced Self-Training (ReST) menerapkan pendekatan konseptual serupa untuk menyempurnakan sinyal reward (atau “kebijakan”) yang digunakan untuk penyempurnaan penguatan.12 Keduanya telah menghasilkan sejumlah metodologi turunan.

Akademi AI

Memilih model AI yang tepat untuk contoh penggunaan Anda

Lebih besar tidak selalu lebih baik dalam hal model AI. Pelajari cara menemukan model yang tepat untuk kebutuhan bisnis Anda. Kemudian dapatkan buku panduan untuk membantu Anda mengambil tindakan.

Tantangan model penalaran

Terlepas dari banyak kekuatan dan manfaatnya, LLM penalaran bukannya tanpa kekurangan.

Terlalu banyak berpikir

Model penalaran—terutama yang memiliki parameter yang relatif sedikit—cenderung berpikir berlebihan. Sebuah studi dari Tencent menemukan bahwa model penalaran menghabiskan rata-rata 1.953% token lebih banyak daripada model konvensional untuk mencapai jawaban yang sama.13 Studi lain, yang dilakukan oleh para peneliti di berbagai universitas, menemukan bahwa dalam lingkungan agen, model penalaran memiliki kecenderungan untuk terlibat dalam penalaran melingkar yang diperluas alih-alih berinteraksi dengan alat bantu dan sumber informasi eksternal.14

Keterbatasan penskalaan inferensi

Penelitian yang diterbitkan oleh Anthropic pada bulan Juli 2025 menegaskan bahwa berpikir berlebihan seperti itu bukan semata-mata masalah efisiensi: makalah mereka menjelajahi "kasus-kasus di mana penalaran yang lebih lama memperburuk kinerja, menunjukkan hubungan terbalik antara waktu komputasi dan akurasi". Meskipun secara empiris telah terbukti bahwa peningkatan waktu komputasi sering kali dapat meningkatkan kinerja model, penelitian mereka menunjukkan beberapa skenario di mana penalaran yang lebih lama memperburuk kelemahan model dan masalah penyelarasan, yang berlawanan dengan "asumsi bahwa lebih banyak penalaran secara umum dapat meningkatkan output model".15

Penelitian terkait dari Apple di awal tahun 2025 menunjukkan serangkaian tugas dengan kompleksitas rendah di mana model standar mengungguli model penalaran, serta tugas dengan kompleksitas tinggi di mana kedua jenis model tersebut gagal secara langsung. Dalam eksplorasi Apple, model penalaran “gagal mengembangkan kemampuan pemecahan masalah yang dapat digunakan secara umum untuk tugas perencanaan, dengan kinerja menurun hingga nol di luar ambang kompleksitas tertentu”.1

Degradasi dalam domain non-penalaran

Sementara penyempurnaan penalaran umumnya menghasilkan peningkatan besar pada tugas-tugas kompleks dalam domain logis seperti matematika dan pengodean, tindakan ini juga dapat menyebabkan penurunan kinerja di domain lain. Misalnya, dibandingkan dengan model aslinya sebagai pembanding, versi Llama 3.1 dan Qwen2.5 yang disempurnakan melalui transfer pengetahuan di DeepSeek-R1 menunjukkan regresi pada ArenaHard dan Alpaca-Eval-2, tolok ukur populer yang mengukur kemampuan model untuk memikirkan langkah dalam instruksi yang sulit. Karena itu, teknik penalaran dengan target yang lebih luas, seperti optimasi preferensi pemikiran (TPO) yang digunakan untuk penyempurnaan IBM Granite 3.2, secara signifikan meningkatkan kemampuan mengikuti instruksi (meskipun tanpa dampak yang berarti pada kinerja matematika atau pengodean).

Evaluasi LLM Menyempurnakan model Llama dan Qwen untuk meniru proses penalaran Deepseek-R1 meningkatkan kinerja dalam domain logis tertentu, tetapi menurunkan kesesuaian dengan instruksi umum.

Peningkatan biaya dan latensi

Pengguna harus membayar (dan menunggu) untuk semua token yang dihasilkan model sambil “berpikir,” dan token untuk berpikir itu menghabiskan jendela konteks yang tersedia. Beberapa contoh penggunaan sepadan dengan waktu dan komputasi tambahan itu, tetapi untuk contoh penggunaan yang lain hal itu adalah pemborosan sumber daya. Namun, terus-menerus beralih dari model penalaran ke model "standar" untuk setiap tugas dan prompt yang berbeda biasanya tidak praktis.

Upaya penalaran dan model penalaran hibrida

Salah satu solusinya adalah “model penalaran hibrida.” Pada bulan Februari, IBM® Granite 3.2 menjadi LLM pertama yang menawarkan mode “berpikir” yang dapat dialihkan, sehingga pengguna dapat memanfaatkan penalaran saat mereka membutuhkannya dan memprioritaskan efisiensi ketika mereka tidak membutuhkannya.16 Claude 3.7 Sonnet dari Anthropic menyusul setelahnya pada bulan yang sama, menambahkan kemampuan bagi pengguna API untuk memiliki kontrol yang terperinci atas berapa lama model "berpikir".17 Google memperkenalkan kemampuan serupa untuk menyesuaikan "anggaran berpikir" model Gemini.18 Demikian juga, "upaya penalaran" model penalaran o1 dan o3 dari OpenAI dapat diatur ke "rendah", "sedang", atau "tinggi".

Penafsiran

Seolah-olah, mengungkapkan rantai pemikiran model kepada pengguna membantu memberikan pemahaman tentang cara LLM mendapatkan jawaban akhirnya, memberikan interpretabilitas yang lebih besar daripada yang biasanya dapat dicapai dengan model standar. Tetapi penelitian dari Anthropic menunjukkan bahwa model penalaran tidak selalu mengatakan apa yang sebenarnya mereka pikirkan. Dalam serangkaian tugas yang dirancang khusus, para peneliti menemukan bahwa Claude 3.7 Soneta dan DeepSeek-R1 tidak menjelaskan alasan mereka dengan jujur: misalnya, ketika diberi petunjuk tentang jawaban yang benar, jawaban mereka jarang menyebutkan petunjuk tersebut ketika menjelaskan alasan mereka.19

Solusi terkait
Model dasar

Jelajahi perpustakaan model dasar IBM di portfolio watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan percaya diri.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Jelajahi perpustakaan model dasar IBM dalam portofolio IBM watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan penuh percaya diri.

Temukan watsonx.ai Jelajahi model AI IBM Granite
Catatan kaki

Semua tautan berada di luar ibm.com kecuali dinyatakan lain.

1. "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity," Apple Machine Learning Research, Juni 2025
2. "Introducing OpenAI o1-preview," OpenAI, 12 September 2024
3. "From System 1 to System 2: A Survey of Reasoning Large Language Models," arXiv, 24 Februari 2025 
4. "Large Language Models are Zero-Shot Reasoners," arXiv, 24 Mei 2022
5. "Show Your Work: Scratchpads for Intermediate Computation with Language Models," arXiv, 30 November 2022
6. "Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters," arXiv, 6 Agustus 2024
7. "Let's Verify Step by Step," arXiv, 31 Mei 2023
8. "Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations," arXiv, 14 Desember 2023
9. "s1: Simple test-time scaling," arXiv, 31 Januari 2025
10. "Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models," arXiv, 1 Agustus 2024
11. "STaR: Bootstrapping Reasoning With Reasoning," arXiv, 28 Maret 2022
12. "Reinforced Self-Training (ReST) for Language Modeling," arXiv, 17 Agustus 2023
13. "Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs," arXiv, 30 Desember 2024
14. "The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks," arXiv, 12 Februari 2025
15. "Inverse Scaling in Test-Time Compute," arXiv, 19 Juli 2025
16. "Bringing reasoning to Granite," IBM Research, 7 Februari 2025
17.  "Claude 3.7 Sonnet and Claude Code," Anthropic, 24 Februari 2025
18. "Generative AI on Vertex AI: Thinking," Google
19. "Reasoning models don't always say what they think," Anthropic, 3 April 2025