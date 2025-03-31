Ketika model penalaran seperti o1 OpenAI, Deepseek-R1, dan Gemini 2.5 Google bersaing untuk mengungguli tolok ukur kecerdasan AI, perusahaan yang ingin mengintegrasikan AI menjadi semakin waspada terhadap sesuatu yang disebut “model kembung”—fenomena di mana model menjadi terlalu besar atau kompleks, mendorong biaya komputasi dan waktu pelatihan model, serta mengurangi kecepatan dalam memberikan respons yang dibutuhkan perusahaan.
o1 OpenAI dan Deepseek-R1 menggunakan penalaran rantai pemikiran (CoT) untuk memecah masalah kompleks menjadi beberapa langkah, mencapai tingkat kinerja yang belum pernah terjadi sebelumnya dan akurasi yang lebih besar daripada semua model sebelumnya. Tetapi CoT juga menuntut sumber daya komputasi yang substansif selama inferensi, yang mengarah ke output yang panjang dan latensi yang lebih tinggi, kata Volkmar Uhlig, VP dan AI Infrastructure Portfolio Lead di IBM, dalam sebuah wawancara dengan IBM Think.
Muncul kelas baru teknik perintah, yang dijelaskan dalam berbagai makalah baru, mulai dari atom pemikiran (AoT) hingga rantai draf (CoD), berusaha meningkatkan efisiensi dan akurasi CoT dengan membantu model memecahkan masalah lebih cepat, sehingga mengurangi biaya dan latensi.
Ilmuwan AI dan pendiri perusahaan rintisan Lance Elliott melihat cabang baru dari rantai pemikiran sebagai variasi dalam kotak peralatan seorang insinyur prompt. “Kotak peralatan standar Anda di rumah mungkin memiliki palu biasa—itulah CoT”, katanya kepada IBM Think. “AoT mirip dengan menggunakan palu khusus yang digunakan untuk situasi yang melibatkan pemotongan dan penyesuaian drywall. Anda dapat menggunakan palu biasa untuk mengerjakan drywall tetapi disarankan untuk menggunakan palu drywall jika punya dan tahu cara menggunakannya dengan benar.”
Vyoma Gajjar, Arsitek Solusi Teknis AI di IBM, melihat potensi dalam saudara CoT baru ini, terutama untuk perusahaan yang “mencari cara yang lebih hemat biaya untuk prompt model kecil untuk mendapatkan jawaban yang akurat untuk contoh penggunaan mereka”, katanya.
Berbeda dengan rantai pemikiran, yang memecahkan masalah kompleks dengan memecahnya menjadi langkah-langkah terperinci dan berurutan, AoT menggunakan strategi bagi-dan-taklukkan. Secara khusus, AoT membagi langkah-langkah masalah menjadi “pertanyaan atom", yang diproses secara paralel, seperti yang dijelaskan oleh penulis satu makalah dari Hong Kong University of Science dan Renmin University of China, kemudian mengumpulkan solusi individual untuk mencapai jawaban akhir.
AoT dapat berfungsi sebagai kerangka kerja mandiri dan sebagai peningkatan plug-in. Ketika penulis menggunakan AoT dengan GPT-4o mini OpenAI, itu melampaui beberapa model penalaran di enam tolok ukur, termasuk o3-mini sebesar 3,4% dan DeepSeek-R1 sebesar 10,6% pada kumpulan data HotpotQA.
Gajjar melihat potensi dalam AoT untuk aplikasi perusahaan yang berusaha menyeimbangkan kinerja dengan mempertahankan profil biaya tertentu. “Tugas terpisah berjalan secara paralel, dan kemudian Anda membiarkan tugas-tugas ini, atau ‘atom’, berbicara satu sama lain, untuk mendapatkan solusi yang paling akurat, seperti elektron berbicara dengan proton”, katanya dalam sebuah wawancara dengan IBM Think.
Penulis makalah mengonfirmasi bahwa AoT mencapai “kinerja kompetitif dengan biaya komputasi yang jauh lebih rendah dibandingkan dengan metode yang ada”, menambahkan bahwa “efisiensi yang ditingkatkan ini dapat dikaitkan dengan representasi keadaan atom kami yang hanya mempertahankan informasi yang diperlukan sambil menghilangkan perhitungan yang berlebihan”.
Namun, AoT tidak berfungsi dengan baik untuk semua contoh penggunaan. Elliott, ilmuwan AI, mengatakan bahwa AoT kemungkinan besar akan membantu “ketika menggunakan AI generatif untuk memperoleh bukti matematika, menghasilkan kode pemrograman, dan untuk tugas penalaran yang sangat terstruktur”. Dan itu akan lebih kecil kemungkinannya untuk meningkatkan efisiensi dengan tugas-tugas menulis kreatif dan terlibat dalam percakapan, katanya.
Sementara itu, perintah rantai draf mengatasi hambatan yang dapat terjadi ketika model penalaran menghasilkan langkah-langkah yang bertele-tele dan sangat terperinci yang meningkatkan latensi. Fenomena ini menunjukkan perbedaan utama antara model penalaran dan manusia, yang cenderung “mengandalkan draf ringkas atau catatan singkatan untuk menangkap insight penting tanpa elaborasi yang tidak perlu”, tulis para penulis dari Zoom Communications dalam makalah baru tentang CoD.
“Masalah latensi sering diabaikan”, tulis penulis makalah. “Namun, sangat penting bagi banyak aplikasi real-time untuk memiliki latensi rendah sambil mempertahankan respons berkualitas tinggi.”
Dengan perintah CoD, LLM didorong untuk menghasilkan penjelasan singkat saat menalar menuju jawaban. Misalnya, prompt kontrol CoT berkata, “Pikirkan langkah demi langkah untuk menjawab pertanyaan berikut. Kembalikan jawaban di akhir respons setelah pemisah ####.” Sebaliknya, prompt CoD menginstruksikan model untuk “Pikirkan langkah demi langkah, tetapi hanya berikan draf minimum untuk setiap langkah berpikir, dengan paling banyak 5 kata. Kembalikan jawaban di akhir respons setelah pemisah.”
Menggunakan ChatGPT-4O OpenAI dan Claude 3.5 Sonnet Anthropic, para peneliti menemukan bahwa CoD setara atau melampaui CoT dalam akurasi dengan menggunakan token 92,4% lebih sedikit, mengurangi biaya dan latensi di berbagai tugas penalaran.
“Kami berada di dunia eksplorasi algoritma yang sama sekali baru”, kata Uhlig dari IBM. “Jika Anda melakukan pelatihan prompt dengan cara yang berbeda, Anda dapat secara dramatis mengurangi jumlah token. Ini adalah langkah selanjutnya yang wajar.”
Sementara banyak teknik perintah baru terus muncul, salah satu yang disebut “kerangka pemikiran” (SoT) terkenal karena menggabungkan elemen-elemen dari atom pemikiran dan rantai konsep. Para penulis makalah yang mengusulkan teknik ini mengatakan mereka termotivasi oleh “proses menulis dan berpikir manusia”. Perintah SoT memandu LLM untuk menghasilkan kerangka jawaban, kemudian melengkapi konten setiap titik kerangka secara paralel.
Dengan menggunakan kerangka pemikiran, penulis dari Universitas Tsinghua di China dan Microsoft Research mampu mempercepat fungsi berbagai LLM serta meningkatkan keakuratan jawaban dalam beberapa kategori. “Kami menunjukkan kelayakan decoding paralel LLM yang tersedia tanpa perubahan pada model, sistem atau perangkat keras mereka”, tulis mereka.
Misalnya, para peneliti mengajukan pertanyaan kepada model: “Apa strategi paling efektif untuk resolusi konflik di tempat kerja?” Menggunakan perintah SoT, penulis mengurangi latensi dari 22 detik menjadi 12 detik (percepatan 1,83x) dengan Claude, dan dari 43 detik menjadi 16 detik (percepatan 2,69x) dengan Vicuna 33B V1.3.
Tidak satu pun dari teknik perintah yang akan berhasil untuk setiap tantangan pada akhirnya, tugas yang dihadapi akan menentukan opsi yang paling efisien dalam toolkit, kata Elliott. “Memahami cara AI generatif bekerja secara tersembunyi sangat menguntungkan”, jelasnya. “Ini seperti mengendarai mobil. Anda tidak perlu mengetahui detail rumit tentang cara kerja mesin atau transmisi, tetapi setidaknya mengetahui beberapa prinsip utama dapat sangat membantu menuju penanganan mobil yang lebih baik. Anda lebih siap menghadapi situasi seperti jalan es, jalan basah, mengemudi di jalan berbukit dan menangani tikungan tajam.”
