Apakah AI benar-benar membuat pengodean lebih cepat?

belakang seorang wanita berambut hijau duduk di meja dengan beberapa layar melakukan pengodean di komputer

Selama beberapa tahun terakhir, model-model terdepan AI telah membuat janji yang berani: bahwa penggunaan asisten pengodean hasil dalam kode yang lebih cepat, lebih sedikit bug, dan lebih sedikit pekerjaan kasar bagi pengembang. Alat seperti GitHub Copilot dan Cursor—didukung oleh model bahasa besar (LLM) seperti Claude atau GPT—dirancang untuk mengotomatiskan bagian-bagian pemrograman yang membosankan sehingga pemrogram manusia dapat fokus pada masalah yang lebih sulit dan lebih kreatif dalam basis kode mereka.

Setidaknya, itu yang menjadi pitch sejauh ini. Tetapi METR (kependekan dari Model Evaluation and Threat riset dan diucapkan “meter”), sebuah organisasi nirlaba Berkeley yang mengevaluasi kemampuan, ingin melihat apakah ada bukti nyata untuk mendukung klaim itu. Temuan mereka justru membalik narasinya: asisten pengodean mungkin sebenarnya memperlambat para pengembang.

Peneliti METR mengamati karya 16 pengembang berpengalaman yang telah berkontribusi pada repositori sumber terbuka besar yang telah mereka kerjakan selama beberapa tahun. Setiap pengembang menyediakan daftar tugas nyata yang biasanya mereka tangani, mulai dari perbaikan bug hingga fitur baru. Para peneliti kemudian secara acak membagi tugas menjadi dua kelompok: satu kelompok berisi pengembang yang dapat menggunakan alat AI, dan satu lagi yang tidak bisa menggunakan AI.

AI dalam campuran

Ketika AI diizinkan, para pengembang dapat memilih alat apa pun yang mereka inginkan; sebagian besar memilih Cursor Pro yang dipasangkan dengan Claude 3.5 atau 3.7 Sonnet. Mereka merekam layar mereka saat mereka menyelesaikan setiap tugas, kemudian melaporkan apa yang mereka pikir total waktu implementasi mereka. Hasil penelitian ini cukup mengejutkan. “Ketika pengembang diizinkan untuk menggunakan alat AI, mereka membutuhkan waktu 19% lebih lama untuk menyelesaikan masalah — perlambatan signifikan yang bertentangan dengan keyakinan pengembang dan perkiraan pakar,” tulis penulis makalah tersebut.

Kami meminta AI Advocacy Lead IBM PJ Hagerty dan Distinguished Engineer Chris Hay untuk melihat studi METR dan menyampaikan pendapat mereka.

Hagerty memperingatkan bahwa hype seputar asisten AI mungkin melampaui utilitas dunia nyata. “Janji AI membuat orang lebih produktif berasal dari kepemimpinan teknologi dan perusahaan gen AI yang ingin memanfaatkan hype AI,” katanya kepada IBM Think. “Pada kenyataannya, AI sedang belajar sambil berjalan dan kemungkinan menggunakan sumber daya yang sama yang mungkin digunakan pengembang junior—Stack Overflow, Github, dan hasil penelusuran umum—tetapi tanpa konteksnya.”

“Menurut saya, hasilnya relevan,” tambah Hay. “Tapi saya Think kita harus berkata, 'Wow, AI tidak berguna. 'Saya lebih cepat melakukannya sendiri.' Saya pikir ada gunanya, bahwa untuk tugas-tugas tertentu, mungkin lebih cepat melakukannya sendiri daripada meyakinkan AI.”

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Persepsi tidak selalu menjadi kenyataan

Separuh lain dari hasil penelitian ini sama menariknya: para pengembang mengharapkan AI untuk mempercepat pekerjaan mereka sebesar 24% sebelum mereka mulai. Namun bahkan setelah mereka mengalami perlambatan 19%, mereka masih percaya AI telah mempercepat mereka sebesar 20%.

Jadi apa yang ada di balik kesenjangan persepsi ini? Kami menghubungi Nate Rush dari METR, salah satu penulis studi ini. “Ini adalah pertanyaan besar, dan pertanyaan yang tidak sepenuhnya dibicarakan oleh pekerjaan kami,” kata Rush kepada IBM® Think. “Idealnya, pekerjaan di masa depan akan Jelajahi lebih lanjut bagaimana harapan pengembang tentang kegunaan AI memengaruhi cara mereka menggunakan alat [dan] mengapa kesenjangan persepsi ini ada.”

Di luar masalah persepsi, penelitian ini menimbulkan sejumlah pertanyaan penting: apakah penghematan waktu adalah satu-satunya cara kita harus mengukur produktivitas pengembang? Bagaimana metrik seperti kualitas kode dan dampak tim cocok dengan gambaran keseluruhan?

“Studi kami hanya berbicara tentang penghematan waktu, yang hanya merupakan ukuran dari satu aspek produktivitas,” kata Rush. “Tidak ada ‘satu metrik yang tepat,‘ tetapi kemungkinan kumpulan metrik yang informatif tentang dampak alat AI.” Dia menambahkan bahwa sementara penelitian ini berfokus pada waktu, timnya telah menemukan kerangka kerja SP ACE produktivitas pengembang (SPACE adalah kependekan dari Kepuasan, Kinerja, Aktivitas, Komunikasi dan Efisiensi) berguna untuk memikirkan arah masa depan.

Pertanyaan lain: dapatkah versi model—dalam hal ini, Claude 3.5 dan 3.7 Sonnet—telah memengaruhi waktu kinerja? “Inilah kenyataannya,” kata Hay. “Saya pikir versi itu penting. Claude 4 Sonnet jauh lebih baik. Claude 4 Opus secara signifikan lebih baik. Kami tidak berbicara sedikit tentang yang lebih baik. Kami berbicara banyak hal yang lebih baik.”

Menurut Quentin Anthony, salah satu dari 16 peserta penelitian, unsur manusia adalah pertimbangan penting lainnya. ”Kami suka mengatakan bahwa LLM adalah alat, tetapi perlakukan mereka lebih seperti peluru ajaib,” tulisnya di X. ”LLM adalah tombol pintas dopamin besar yang dapat menyelesaikan masalah Anda. Apakah Anda terus menekan tombol yang memiliki peluang 1% untuk memperbaiki semuanya? Ini jauh lebih menyenangkan daripada alternatif yang melelahkan, setidaknya bagi saya." (Anthony menambahkan bahwa gangguan media sosial adalah cara lain yang mudah untuk menyebabkan penundaan).

Jadi, seiring dengan perkembangan dan peningkatan asisten pengodean AI, di manakah mereka akan memiliki dampak jangka panjang yang paling berkelanjutan pada pengembangan perangkat lunak? “Begitu mereka menjadi stabil, dapat dipercaya, dan berguna, saya pikir tempat terbaik Code Assistant adalah di lapisan QA — pengujian, jaminan kualitas, aksesibilitas,” kata Hagerty. “Hal-hal yang dibatasi dan berbasis aturan adalah aplikasi terbaik dari alat ini.”

Itu karena, katanya, menulis kode pada dasarnya berbeda dengan memeriksanya. ”Pengodean itu sendiri adalah kegiatan kreatif. Ini membangun sesuatu dari ketiadaan dalam ekosistem yang unik. Asisten AI melewatkan nuansa itu. Tetapi mereka mungkin dapat menguji menggunakan sistem aturan yang lebih umum dan universal.”

Solusi terkait
Model dasar

Jelajahi pustaka model dasar IBM di portfolio watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan percaya diri.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda keahlian AI terdepan di industri dan portofolio solusi dari IBM.

Jelajahi solusi AI
Konsultasi dan layanan AI

Rancang ulang alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Jelajahi perpustakaan model dasar IBM dalam portofolio IBM watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan penuh percaya diri.

Jelajahi watsonx.ai Jelajahi solusi AI