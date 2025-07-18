Riset MIT mendefinisikan apa yang disebutnya “perencanaan kode cakrawala panjang” sebagai batasan utama sistem AI saat ini. Menurut Gu, ini melibatkan penalaran tentang bagaimana kode cocok dengan sistem yang lebih besar dan mempertimbangkan konsekuensi global dari keputusan lokal.

“Perencanaan kode jangka panjang membutuhkan tingkat penalaran dan interaksi manusia yang canggih,” kata Gu. “Model harus mempertimbangkan pertukaran seperti kinerja, memori dan kualitas kode, dan menggunakannya untuk memutuskan bagaimana merancang kode.”

Gu menunjuk contoh merancang bahasa pemrograman baru. Tugas tersebut, jelasnya, membutuhkan mempertimbangkan semua berbagai cara bahasa harus digunakan, memutuskan fungsi API apa yang akan diekspos dan memikirkan pola penggunaan pengguna. Studi ini mencatat bahwa model juga harus beralasan tentang efek global dari perubahan kode lokal, karena sedikit perubahan pada desain fungsi tunggal dapat menyebar ke seluruh basis kode.

Riset MIT mengidentifikasi masalah dalam cara kemampuan pengodean AI saat ini dievaluasi. Menurut Gu, sebagian besar tolok ukur pengodean berfokus pada menghasilkan program kecil yang mandiri dari awal, yang tidak mencerminkan realitas rekayasa perangkat lunak skala besar.

“Satu aspek yang kami sebutkan adalah keberagaman tugas: sementara rekayasa perangkat lunak dunia nyata [SWE] melibatkan tugas-tugas seperti pengujian perangkat lunak atau pemeliharaan perangkat lunak, ini jarang tercermin dalam tolok ukur saat ini,” kata Gu.

Sama pentingnya, tambahnya, adalah kemampuan sistem AI untuk menyimpulkan niat pengguna, keterampilan yang penting untuk menyesuaikan solusi untuk contoh penggunaan tertentu. “Sebuah situs web untuk bisnis mungkin perlu lebih kuat daripada situs web yang dirancang untuk bersenang-senang.”

Riset menemukan bahwa LLM berkinerja terbaik pada tugas-tugas yang sangat mirip dengan contoh yang terlihat selama pelatihan, menciptakan tantangan untuk proyek yang bergantung pada bahasa pemrograman sumber daya rendah atau perpustakaan khusus. Menurut Gu, bahasa sumber daya rendah dan perpustakaan khusus relatif jarang muncul di kumpulan data ini, sehingga LLM lebih berjuang dengannya.

“Melakukan tugas-tugas ini lebih bergantung pada ekstrapolasi ke data dan domain yang tidak terlihat (generalisasi), yang sering kali lebih sulit daripada mengulangi kode yang mirip dengan distribusi pelatihan,” kata Gu.

Menurut penelitian tersebut, keterbatasan ini berarti bahwa agen pengodean AI cenderung kurang efektif dalam sistem lama, lingkungan komputasi ilmiah, dan alat internal di mana dokumentasi mungkin terbatas.