AI dapat menulis kode, tetapi dapatkah mengalahkan insinyur perangkat lunak?

Pria duduk di meja dengan punggung menghadap kami melakukan pengodean di komputer dengan banyak layar

Kecerdasan buatan dapat menghasilkan kode tetapi tidak bisa berpikir seperti insinyur perangkat lunak.

Itulah kesimpulan dari riset baru dari Laboratorium Ilmu Komputer dan Kecerdasan Buatan MIT, yang menemukan bahwa sementara model bahasa besar (LLM) unggul dalam menghasilkan cuplikan kode, mereka gagal dalam memenuhi penalaran, perencanaan, dan kolaborasi canggih yang dituntut oleh rekayasa perangkat lunak dunia nyata. Studi yang dilakukan bekerja sama dengan para peneliti dari Stanford, UC Berkeley dan Cornell dan dipresentasikan pada Konferensi Internasional tentang machine learning minggu ini, menantang asumsi tentang kesiapan AI untuk mengubah pengembangan perangkat lunak.

“Perencanaan kode jangka panjang membutuhkan tingkat penalaran dan interaksi manusia yang canggih,” Alex Gu, kandidat PhD di MIT CSAIL dan penulis utama studi tersebut, mengatakan dalam sebuah wawancara dengan IBM Think. “Model harus mempertimbangkan berbagai pertukaran, seperti kinerja, memori, kualitas kode, dll., dan menggunakannya untuk secara akurat memutuskan bagaimana merancang kode.”

Alat pengodean AI sekarang menjadi hal yang penting dalam pengembangan perangkat lunak modern. Pada tahun 2025, 82% pengembang melaporkan menggunakan alat pengodean AI setiap minggu atau lebih, dan 59% mengatakan mereka mengandalkan tiga atau lebih asisten dalam alur kerja mereka. 78% lainnya melaporkan peningkatan produktivitas yang jelas, menunjukkan seberapa dalam AI membentuk cara kode ditulis saat ini.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Tantangan perencanaan

Riset MIT mendefinisikan apa yang disebutnya “perencanaan kode cakrawala panjang” sebagai batasan utama sistem AI saat ini. Menurut Gu, ini melibatkan penalaran tentang bagaimana kode cocok dengan sistem yang lebih besar dan mempertimbangkan konsekuensi global dari keputusan lokal.

“Perencanaan kode jangka panjang membutuhkan tingkat penalaran dan interaksi manusia yang canggih,” kata Gu. “Model harus mempertimbangkan pertukaran seperti kinerja, memori dan kualitas kode, dan menggunakannya untuk memutuskan bagaimana merancang kode.”

Gu menunjuk contoh merancang bahasa pemrograman baru. Tugas tersebut, jelasnya, membutuhkan mempertimbangkan semua berbagai cara bahasa harus digunakan, memutuskan fungsi API apa yang akan diekspos dan memikirkan pola penggunaan pengguna. Studi ini mencatat bahwa model juga harus beralasan tentang efek global dari perubahan kode lokal, karena sedikit perubahan pada desain fungsi tunggal dapat menyebar ke seluruh basis kode.

Riset MIT mengidentifikasi masalah dalam cara kemampuan pengodean AI saat ini dievaluasi. Menurut Gu, sebagian besar tolok ukur pengodean berfokus pada menghasilkan program kecil yang mandiri dari awal, yang tidak mencerminkan realitas rekayasa perangkat lunak skala besar.

“Satu aspek yang kami sebutkan adalah keberagaman tugas: sementara rekayasa perangkat lunak dunia nyata [SWE] melibatkan tugas-tugas seperti pengujian perangkat lunak atau pemeliharaan perangkat lunak, ini jarang tercermin dalam tolok ukur saat ini,” kata Gu.

Sama pentingnya, tambahnya, adalah kemampuan sistem AI untuk menyimpulkan niat pengguna, keterampilan yang penting untuk menyesuaikan solusi untuk contoh penggunaan tertentu. “Sebuah situs web untuk bisnis mungkin perlu lebih kuat daripada situs web yang dirancang untuk bersenang-senang.”

Riset menemukan bahwa LLM berkinerja terbaik pada tugas-tugas yang sangat mirip dengan contoh yang terlihat selama pelatihan, menciptakan tantangan untuk proyek yang bergantung pada bahasa pemrograman sumber daya rendah atau perpustakaan khusus. Menurut Gu, bahasa sumber daya rendah dan perpustakaan khusus relatif jarang muncul di kumpulan data ini, sehingga LLM lebih berjuang dengannya.

“Melakukan tugas-tugas ini lebih bergantung pada ekstrapolasi ke data dan domain yang tidak terlihat (generalisasi), yang sering kali lebih sulit daripada mengulangi kode yang mirip dengan distribusi pelatihan,” kata Gu.

Menurut penelitian tersebut, keterbatasan ini berarti bahwa agen pengodean AI cenderung kurang efektif dalam sistem lama, lingkungan komputasi ilmiah, dan alat internal di mana dokumentasi mungkin terbatas.

Pemahaman Codebase

Studi MIT mengidentifikasi kebutuhan sistem AI untuk mengembangkan model semantik yang akurat dari basis kode proyek. Menurut Gu, ini melibatkan pemahaman struktur perangkat lunak, bagaimana komponen berinteraksi dan bagaimana hubungan tersebut berubah dari waktu ke waktu.

“Pertama, AI harus memahami struktur basis kode dan bagaimana berbagai bagian bersatu,” katanya. “Kedua, ia harus memahami bagaimana fungsi individu bekerja. Akhirnya, ia harus memperbarui model basis kode saat fitur baru ditambahkan.”

Studi ini mencatat bahwa model AI saat ini tidak memiliki keadaan yang persisten antara prompt, sehingga tidak memiliki memori tentang bagaimana basis kode telah berkembang atau representasi internal dari arsitekturnya.

Terlepas dari keterbatasan ini, penulis mengidentifikasi beberapa area untuk peningkatan potensial. Gu mengatakan tolok ukur yang lebih baik dapat membantu—terutama jika mereka dapat mengevaluasi sistem AI pada berbagai tugas yang lebih luas, termasuk pengujian, pemeliharaan, dan kolaborasi manusia-AI.

Ia juga melihat potensi jangka pendek di bidang-bidang lain di luar pengodean, terutama di pendidikan. “AI sudah memiliki kemampuan yang kuat dalam memecahkan sebagian besar masalah sekolah dasar dan menengah,” katanya. “AI memiliki banyak potensi untuk merampingkan alur kerja yang ada dalam pendidikan, seperti menghasilkan masalah praktik, menilai dan mengidentifikasi kesalahpahaman siswa.”

Akademi AI

Bangkitnya AI generatif untuk bisnis

Pelajari tentang sejarah kebangkitan AI generatif dan apa pengaruhnya bagi bisnis.

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Manfaatkan AI generatif dan otomatisasi canggih untuk membuat kode perusahaan siap pakai lebih cepat. IBM watsonx Code Assistant™ memanfaatkan model Granite untuk menambah keahlian pengembang, menyederhanakan dan mengotomatiskan upaya pengembangan dan modernisasi Anda.

Menjelajahi watsonx Code Assistant