Dalam perlombaan untuk mendominasi AI, yang lebih besar biasanya lebih baik. Lebih banyak data dan lebih banyak parameter menciptakan sistem AI yang lebih besar, yang tidak hanya lebih canggih tetapi juga lebih efisien dan cepat, dan umumnya menciptakan lebih sedikit kesalahan daripada sistem yang lebih kecil.
Berbagai perusahaan teknologi yang mendominasi berita utama memperkuat tren ini. “Sistem yang baru saja kami terapkan, dari segi skala berukuran sebesar ikan paus,” kata CTO Microsoft Kevin Scott tentang superkomputer yang menggerakkan Chat GPT-5. Scott menyampaikannya saat membahas versi terbaru dari chatbot AI generatif dari Open AI di acara Build perusahaan tersebut baru-baru ini pada akhir Mei. “Dan ternyata Anda bisa membangun banyak AI dengan superkomputer seukuran paus.”
Sementara itu, kapitalisasi pasar Nvidia mencapai angka USD 3 triliun pada bulan Juni. Pembuat chip ini telah tumbuh dengan kecepatan yang luar biasa cepat karena chipnya menggerakkan model bahasa yang semakin besar, superkomputer, dan pusat data yang menjamur di seluruh dunia.
Tetapi apakah yang lebih besar selalu lebih baik? Itu tergantung pada perspektif Anda. Bagi perusahaan yang mengembangkan model bahasa besar, skala adalah keuntungan dalam banyak kasus. Tetapi ketika perusahaan ingin memisahkan sensasi di mana AI dapat menambah nilai sebenarnya, tidak jelas apakah model bahasa yang semakin besar akan selalu mengarah pada solusi yang lebih baik untuk bisnis.
Ke depannya, “kita tidak akan membutuhkan model yang 100x dari yang kita miliki saat ini untuk mengekstrak sebagian besar nilainya,” kata Kate Soule, direktur program Generative AI Research IBM dalam episode terbaru podcast Mixture of Experts IBM. Banyak perusahaan yang sudah mendapatkan hasil investasi AI mereka menggunakannya untuk tugas-tugas seperti klasifikasi dan ringkasan, yang bahkan tidak menggunakan kapasitas penuh model bahasa saat ini.
"Lebih besar berarti lebih baik" berasal dari hukum penskalaan data yang ramai dibahas setelah makalah tahun 2012 oleh Prasanth Kolachina, yang menerapkan hukum penskalaan pada machine learning. Kolachina dan rekan-rekannya menunjukkan bahwa ketika model semakin besar, mereka umumnya menjadi lebih akurat dan berkinerja lebih baik. Pada tahun 2017, Hestness et al. menunjukkan bahwa penskalaan dengan pembelajaran mendalam juga dapat diprediksi secara empiris. Kemudian pada tahun 2020, Kaplan et al. menunjukkan bahwa hukum penskalaan data juga berlaku untuk model bahasa.
Meskipun semua hukum ini bermanfaat bagi penyedia model bahasa yang berusaha menciptakan kecerdasan umum buatan, namun masih sangat tidak jelas apakah bisnis membutuhkan skala investasi atau AI ini untuk mengoptimalkan nilainya.
“Hanya karena Anda tahu cara paling hemat biaya untuk melatih model hingga tingkatan tertinggi, akankah manfaat aktual yang Anda peroleh dari model itu membenarkan biayanya?” kata Soule dari IBM. “Itu adalah pertanyaan yang sama sekali berbeda yang tidak dijawab oleh hukum penskalaan.”
Biaya data meningkat seiring dengan semakin langkanya penggunaan data berkualitas tinggi untuk melatih model AI. Sebuah makalah dari Epoch AI, sebuah organisasi riset AI, menemukan bahwa model AI dapat menghabiskan semua data bahasa berkualitas tinggi saat ini yang tersedia di internet pada tahun 2026.
Jadi perusahaan menjadi kreatif dalam hal mengakses data baru untuk melatih model dan mengelola biaya. Versi terbaru Chat GPT Open AI, misalnya, ditawarkan gratis kepada pengguna sebagai ganti dari sejumlah data pengguna dan pihak ketiga. Para pemain besar juga melihat data sintetis, yang terdiri dari gambar 2D, data 3D, teks, dan banyak lagi, yang digunakan dengan data dunia nyata untuk melatih AI.
Meski perusahaan yang mengembangkan LLM menanggung biaya data, biaya pengembangan model bahasa yang semakin besar, justru banyak dilupakan. Ketika model-model ini menaikkan skala kompleksitas dan penggunaannya, konsum si sumber daya komputasinya juga makin besar. Pusat data yang menampung superkomputer yang memberdayakan model-model ini mengonsumsi jumlah energi yang signifikan, menciptakan emisi karbon yang sama besarnya.
“Bukan hanya karena ada dampak energi yang besar di sini, tetapi juga karena dampak karbon dari model ini akan memunculkan biaya terlebih dahulu pada orang yang tidak mendapat manfaat dari teknologi ini,” kata Emily Bender, Profesor Linguistik Universitas Washington yang menerbitkan sebuah makalah berjudul On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?.
“Ketika kita melakukan analisis biaya-manfaat, penting untuk memikirkan siapa yang mendapatkan manfaat dan siapa yang membayar biayanya karena mereka bukan orang yang sama,” kata Bender dalam edaran berita University of Washington.
Salah satu cara perusahaan menyeimbangkan biaya dan manfaat adalah dengan menggunakan model yang lebih besar terlebih dahulu untuk mengatasi masalah bisnis yang paling menantang. Kemudian, begitu mendapatkan jawabannya, mereka beralih ke model lebih kecil yang mereplikasi temuan model besar, tetapi dengan biaya lebih rendah dan dengan penurunan latensi.
Penggunaan model bahasa yang lebih kecil juga berkembang sebagai alternatif bagi model bahasa besar.
“LLM yang lebih kecil menawarkan pengguna lebih banyak kontrol dibandingkan dengan model bahasa yang lebih besar seperti ChatGPT atau Claude Anthropic, membuat mereka lebih diinginkan dalam banyak kasus,” kata Brian Peterson, salah satu pendiri dan kepala petugas teknologi Dialpad, platform didukung AI dan berbasis cloud mengatakan kepada PYMNTS.
“Mereka dapat menyaring melalui subset data yang lebih kecil, membuatnya lebih cepat, lebih terjangkau, dan, jika Anda memiliki data sendiri, jauh lebih dapat disesuaikan dan bahkan lebih akurat.” Perlombaan untuk membangun LLM yang lebih besar dan lebih kuat tidak mungkin melambat dalam waktu dekat. Tetapi ke depannya, sebagian besar pakar setuju bahwa kita juga akan melihat lonjakan model AI yang ringkas namun kuat yang unggul di bidang tertentu dan menawarkan alternatif bagi perusahaan yang ingin menyeimbangkan nilai dan biaya AI dengan lebih baik.
