Claude 3.7 Sonnet Anthropic yang baru sekarang dapat menghidupkan dan mematikan mode berpikir mendalam seperti sakelar lampu, menjawab pertanyaan sederhana secara instan sambil menyimpan beban berat komputasi untuk masalah kompleks yang membutuhkannya.
Pendekatan penalaran hibrida ini menandai pergeseran kecerdasan buatan yang menurut para ahli dapat memotong biaya dan meningkatkan kemampuan, dengan model Granite IBM® juga mengadopsi fitur pengalihan serupa berdasarkan kompleksitas tugas. Evolusi ini terjadi ketika organisasi di seluruh dunia berjuang dengan realitas keuangan dari AI canggih, yang berpotensi membuat penalaran yang canggih lebih mudah diakses sekaligus menghemat sumber daya komputasi yang berharga.
"Struktur biaya model berpikir penting; tidak semua pertanyaan memerlukan jeda 32 detik agar model memikirkannya," Maya Murad, Manajer Produk untuk AI di IBM® Research, mengatakan selama episode terbaru podcast Mixture of Experts. "Kemampuan ini memungkinkan perusahaan untuk menggunakan sumber daya secara cerdas, menerapkan perhitungan ekstensif hanya ketika masalah membutuhkannya, menciptakan sistem AI yang lebih cocok dengan cara manusia mendekati tugas kognitif yang berbeda."
Penalaran hybrid menandakan pergeseran fokus industri AI dari sekadar membangun sistem yang lebih kuat untuk menciptakan sistem yang praktis untuk digunakan, Abraham Daniels, Manajer Program Senior di IBM® Research, mengatakan kepada IBM® Think. Untuk bisnis, perubahan ini bisa sangat penting, karena biaya pengoperasian AI canggih telah menjadi pertimbangan utama.
Model mengonsumsi lebih banyak sumber daya komputasi—dan karenanya menghabiskan lebih banyak uang—selama penalaran mendalam daripada saat memberikan tanggapan sederhana. Penalaran hybrid memungkinkan perusahaan mengoptimalkan pengeluaran AI dengan mencocokkan tingkat komputasi dengan kompleksitas tugas.
Anthropic baru-baru ini meluncurkan Claude 3.7 Sonnet dengan “mode pemikiran yang diperluas,” yang memungkinkan pengguna meminta analisis yang lebih mendalam bila dibutuhkan. IBM® juga melengkapi model Granite-nya dengan kemampuan "toggling", yang memberi pengguna kendali atas kapan harus mengaktifkan penalaran intensif.
"Kami membangun penalaran hybrid dengan filosofi yang berbeda dengan model penalaran lain di pasar," seorang juru bicara Anthropic mengatakan kepada IBM® Think. "Pendekatan kami didasarkan pada cara kerja otak manusia. Sebagai manusia, kita tidak memiliki dua otak yang terpisah untuk berpikir cepat versus mendalam—dan di Anthropic, kita menganggap penalaran sebagai sesuatu yang perlu diintegrasikan secara mendalam ke dalam kemampuan semua model kita versus fitur terpisah. Pendekatan ini didasarkan pada bagaimana kami melihat Claude berintegrasi dengan pelanggan kami di semua aplikasi. Sementara beberapa interaksi membutuhkan respons cepat, seperti membuat ide untuk materi pemasaran, yang lainnya, seperti analisis keuangan yang kompleks atau riset industri, membutuhkan pemikiran yang lebih mendalam dan memakan waktu lebih lama. Kami ingin membuat kedua fungsi ini sesederhana dan hemat biaya untuk diakses dan digunakan pelanggan kami."
Proses berpikir AI menjadi lebih transparan dengan pendekatan ini. "Model itu sendiri masih berupa kotak hitam, tetapi setidaknya pada output, Anda bisa melihat bagaimana model sampai pada kesimpulan itu," Daniels mengatakan. Visibilitas ini dapat meningkatkan hasil dan mengatasi masalah kejelasan, yang sangat penting bagi industri yang diatur, katanya.
Daniels dan para pakar lainnya melihat perkembangan ini sebagai jawaban atas kebutuhan praktis: menghilangkan beban komputasi yang tidak perlu untuk pertanyaan-pertanyaan yang sederhana.
“Tidak semua tugas membutuhkan penalaran yang mendalam, dan fitur ini pada dasarnya memberi Anda kemampuan untuk membayar lebih—baik dari segi latensi maupun biaya—ketika Anda menghadapi hal-hal yang lebih rumit,” ujar Kate Soule, Director of Technical Product Management di IBM®Research, dalam podcast tersebut.
Cara kerja bagian dalam model bahasa besar (LLM) secara tradisional tidak jelas. Sebuah model akan menerima prompt dan menghasilkan respons, tanpa mengungkapkan langkah-langkah penalaran internalnya.
Penalaran hybrid mengubah dinamika ini dengan mengekspos proses berpikir langkah demi langkah model. Ketika diaktifkan, sistem seperti Granite 3.2 menunjukkan pekerjaan mereka, membuat jalur logis yang mereka ikuti terlihat.
"Keputusan kami untuk membuat proses penalaran Claude terlihat mencerminkan pertimbangan berbagai faktor. Salah satu faktor tersebut termasuk peningkatan pengalaman pengguna dan transparansi kepercayaan dalam proses penalaran Claude," kata juru bicara Anthropic. "Proses ini memberi pengguna insight tentang bagaimana kesimpulan dicapai, menumbuhkan tingkat kepercayaan dan pemahaman yang sesuai. Pengguna umumnya lebih mempercayai output ketika mereka dapat mengamati rantai pemikiran. Kami berharap visibilitas ini memungkinkan pengguna untuk mengevaluasi kualitas dan ketelitian penalaran Claude dengan lebih baik, dan membantu pengguna lebih memahami kemampuan Claude. Selain itu, kami berharap pengguna dan pengembang dapat membuat prompt yang lebih baik dengan membaca output pemikiran Claude dan memberikan masukan yang ditargetkan pada langkah-langkah penalaran tertentu."
"Mampu mengekspos pemikiran aktual model sangat bagus untuk penjelasan," kata Daniels. "Sebelum dapat menunjukkan penalaran rantai pemikiran (CoT), itu benar-benar hanya probabilitas token berikutnya. Jadi sedikit kotak hitam."
Teknologi ini memiliki aplikasi bisnis yang meluas di banyak industri. "Keuangan dan hukum cocok secara alami karena mereka berurusan dengan dokumentasi terstruktur," kata Daniels, menambahkan bahwa "setiap industri yang diatur akan mendapatkan nilai luar biasa" dari model pemikiran canggih ini.
Tetapi penalaran hybrid dapat sangat berguna dalam domain yang membutuhkan analisis kompleks.
"Matematika dan kode benar-benar dua titik fokus yang saya lihat dalam hal tolok ukur untuk penalaran," kata Daniels. Untuk pengembangan perangkat lunak, manfaatnya bisa sangat besar: "Menggunakan model pemikiran akan dapat membingkai seperti apa ruang lingkup proyek yang seharusnya terlihat mengingat persyaratan yang telah Anda tetapkan," katanya.
LLM Standard menghasilkan respons dengan memprediksi kata berikutnya yang paling mungkin berdasarkan pola dalam data pelatihan mereka. Pendekatan ini bekerja dengan baik untuk banyak tugas, tetapi model ini dapat berjuang dengan masalah penalaran multi-langkah.
Model penalaran hybrid dapat beralih ke mode intensif komputasi, secara eksplisit menghasilkan langkah-langkah penalaran menengah sebelum memberikan jawaban akhir. Model menggunakan langkah-langkah ini untuk menyelesaikan masalah yang kompleks, mirip dengan cara manusia menuliskan langkah-langkah perantara saat mengerjakan soal matematika yang sulit.
Arsitektur yang memungkinkan penalaran hibrida dibangun di atas apa yang disebut oleh para peneliti sebagai "test-time compute," yang melibatkan dedikasi sumber daya komputasi selama inferensi dan bukan hanya selama pelatihan.
"Seringkali, secara tradisional, semua daya Anda akan digunakan untuk melatih model, dan kemudian menyimpulkan model akan relatif ringan dalam hal persyaratan komputasi," kata Daniels.
Tetapi ketika sistem AI tumbuh lebih kompleks, tantangannya bukan hanya kekuatan pemrosesan—tetapi juga mengetahui kapan menggunakannya secara efisien. Itulah sebabnya batas berikutnya dalam penalaran hybrid, ujar Daniels, adalah kemampuan regulasi diri yang lebih cerdas: mengajarkan AI untuk mengetahui kapan harus mengaktifkan mode berpikir mendalamnya sendiri, tanpa perlu arahan dari manusia.
"Langkah selanjutnya dalam hal model penalaran, atau model penalaran hybrid, adalah bagaimana kita dapat lebih memahami atau lebih baik triase input dalam komputasi waktu uji, atau dalam kerangka kerja," katanya.
