72% CEO dengan kinerja terbaik setuju bahwa memiliki alat bantu AI generatif yang paling canggih akan memberikan keunggulan kompetitif bagi sebuah organisasi, menurut IBM® Institute for Business Value. Tetapi jika alat AI generatif tersebut tidak didasarkan pada konteks unik perusahaan, organisasi mungkin tidak mendapatkan manfaat penuh darinya.
Sekuat model AI generatif berskala besar dan serbaguna seperti ChatGPT dan Google Gemini, model-model ini tidak dilatih menggunakan kumpulan data khusus milik suatu organisasi. Saat diterapkan ke dalam alur kerja internal, mereka bisa melewatkan detail penting yang membuatnya mudah keliru dan pada akhirnya menghasilkan keluaran yang kurang optimal.
”Setiap perusahaan punya bahasanya sendiri,” jelas Michael Choie, Senior Managing Consultant, AI and Analytics, IBM® Consulting. ”Ambil contoh kata ‘berpakaian’. Untuk jaringan supermarket, itu berarti ‘saus salad’. Namun bagi rumah sakit, maknanya berubah menjadi ‘pembalut luka’.”
IBM® bekerja sama dengan The Harris Poll untuk merilis Cara Kerja AI 2024, sebuah survei terhadap 2.000 organisasi di berbagai belahan dunia. Survei menunjukkan bahwa 15% dari organisasi tersebut—yang disebut sebagai Pemimpin AI—berhasil meraih dampak terukur melalui AI.
Salah satu ciri yang membedakan para Pemimpin AI adalah keyakinan mereka dalam menyesuaikan inisiatif AI demi mendapatkan nilai terbaik. Ini bukan berarti sebuah organisasi harus membangun model dari nol agar tampak berbeda. Sebaliknya, mereka bisa mengadaptasi model AI yang sudah ada dengan memanfaatkan satu hal yang tidak dimiliki pihak lain: data eksklusif milik perusahaan.
”Setiap penyedia AI, seperti X atau Google, memiliki akses ke informasi publik. Mereka juga dapat memanfaatkan data dari platform mereka sendiri,” jelas Shobhit Varshney, Vice President dan Senior Partner, Americas AI Leader, IBM® Consulting. ”Namun yang tidak bisa mereka sentuh adalah data milik perusahaan Anda. Potongan penting itu tetap berada di luar jangkauan mereka.”
Seperti yang diuraikan Varshney dalam Cara Kerja AI 2024, ”Perbatasan berikutnya adalah membuat AI menyeberangi jurang dan masuk ke dalam perusahaan sehingga bisa menyerap, belajar, dan menjadi keunggulan kompetitif Anda.”
Ada tiga pendekatan utama untuk memasukkan data kepemilikan ke dalam model AI: rekayasa prompt, generasi dengan dukungan pengambilan data (RAG), dan penyempurnaan.
Dalam konteks ini, rekayasa prompt berarti menyertakan data hak milik dalam prompt yang diteruskan ke AI.
Misalnya, pengguna ingin model AI merangkum percakapan di pusat panggilan. Mereka cukup menuliskan prompt—“Ringkas percakapan ini”—dan melampirkan transkrip panggilan sebagai bagian dari prompt tersebut.
Rekayasa prompt tidak memerlukan perubahan pada model itu sendiri. Pendekatan ini paling cocok untuk tugas umum dengan volume rendah, di mana konteks yang dibutuhkan masih masuk akal untuk disertakan langsung pada setiap prompt.
Generasi dengan dukungan pengambilan data (RAG) berarti menghubungkan model AI ke basis data kepemilikan. Dengan begitu, model dapat mengambil informasi relevan dari sumber tersebut saat merespons sebuah prompt.
Misalnya, sebuah organisasi bisa memberi chatbot layanan pelanggan akses ke basis data produk perusahaan. Ketika pengguna mengajukan pertanyaan tentang salah satu produk, chatbot dapat menelusuri dokumentasi terkait dan menarik jawaban yang tepat.
RAG tidak memerlukan perubahan permanen pada model. Pendekatan ini dapat meningkatkan akurasi dan mengurangi halusinasi, meski berpotensi menambah waktu respons.
Penyempurnaan berarti memberikan data tambahan kepada model AI dalam jumlah yang cukup untuk mengubah sebagian parameternya. Proses ini mengubah perilaku model secara permanen, menyesuaikannya dengan contoh penggunaan atau konteks tertentu. Pendekatan ini juga jauh lebih cepat dan lebih hemat biaya dibandingkan melatih model baru dari awal.
“Jika Anda memiliki neural networks dengan 100 lapisan berbeda, melatihnya berarti memodifikasi seluruh 100 lapisan itu,” jelas Choie. “Penyempurnaan berarti Anda hanya menyesuaikan beberapa lapisan terakhir. Anda tetap memodifikasi model, tetapi tidak perlu mengubah semuanya karena fondasinya sudah berfungsi dengan baik.”
Penyempurnaan membutuhkan investasi awal yang sedikit lebih besar dibandingkan rekayasa prompt maupun RAG. Pendekatan ini efektif untuk mengubah model berukuran lebih kecil menjadi pakar dalam domain tertentu. Misalnya, sebuah perusahaan asuransi dapat melakukan penyempurnaan pada model agar mahir menangani proses klaim baru.
Varshney menggambarkan model yang telah disempurnakan dengan baik layaknya karyawan baru yang baru lulus dari bangku kuliah. Mereka mungkin tidak memiliki cakupan pengetahuan seluas seorang polimatik jenius (atau model AI besar yang serbaguna) namun mereka jauh lebih cekatan dalam memproses klaim dibandingkan polimatik.
”Ia tidak bisa mengerjakan pajak atau menulis kontrak hukum,” kata Varshney, ”Namun jika saya memintanya untuk memproses klaim, ia akan langsung tahu cara melakukannya.”
Menggunakan data eksklusif dengan cara ini dapat memberikan keunggulan kompetitif yang signifikan, karena model AI menjadi terbiasa dengan proses, produk, pelanggan, serta berbagai nuansa unik milik perusahaan.
“Jika AI Anda terutama digunakan oleh perusahaan tertentu, maka penting bagi AI tersebut untuk memanfaatkan data milik perusahaan itu,” ujar Choie.
Ketika model AI memiliki akses ke data hak milik, model ini didasarkan pada konteks bisnis tertentu, yang berarti outputnya juga didasarkan pada konteks tersebut.
“Saya bisa mengambil model AI terbuka, melakukan penyempurnaan dengan data milik saya sendiri, dan menjadikannya versi yang unik bagi saya,” ujar Varshney. “Saya memegang hak IP atas hal tersebut. Saya pun menjalankannya di infrastruktur saya sendiri.”
Hasilnya, model-model ini dapat menghasilkan output yang lebih akurat dan efektif daripada model yang tidak tersegmentasi, model siap pakai yang diambil dari tubuh data publik secara umum.
Organisasi dapat memanfaatkan berbagai jenis model AI untuk mencapai hasil yang mereka inginkan. Namun model sumber terbuka—seperti model IBM® Granite, yang dirilis di bawah lisensi Apache 2.0 untuk penggunaan komersial yang luas tanpa hambatan—menghadirkan sejumlah keunggulan tersendiri.
“Saat melatih model AI, ada banyak parameter dan teknik yang harus Anda sesuaikan agar model dapat belajar secara efektif dan efisien. Anda memerlukan ilmuwan data dan pakar machine learning khusus untuk menanganinya,” jelas Choie. “Manfaat dari menyempurnakan model terbuka adalah bahwa kami memiliki model-model ini yang sudah dikerjakan oleh beberapa orang brilian. Kita hanya perlu memberikan data tambahan yang spesifik untuk tugas tertentu dan menyesuaikan beberapa lapisan, jauh lebih sederhana dibandingkan membangun model dari awal.”
Selain memungkinkan organisasi memetik manfaat dari kebijaksanaan komunitas, model sumber terbuka juga memberi ruang untuk bereksperimen tanpa risiko biaya kegagalan yang terlalu besar. Serangkaian eksperimen ini pada akhirnya membantu organisasi menerapkan strategi multimodel, memanfaatkan berbagai model—masing-masing disetel dengan cara berbeda—untuk menangani tugas-tugas spesifik dalam domain tertentu.
Strategi multimodel kini dianggap sebagai praktik terbaik. Laporan Cara Kerja AI Tahun 2024 mencatat bahwa 62% Pemimpin AI menggunakan lebih dari satu model, dibandingkan hanya 32% dari para Pembelajar AI.
“Hampir tidak perlu diperdebatkan lagi untuk menggunakan model sumber terbuka,” ujar Choie. “Model-model ini hemat biaya, dikembangkan oleh para ahli terbaik di industri, dan setiap kali muncul pembaruan atau kendala, komunitas langsung bergerak bersama untuk mengatasinya.”
Manajemen data yang efektif menjadi salah satu ciri utama yang membedakan para Pemimpin AI dari organisasi lainnya, menurut Cara Kerja AI Tahun 2024. Sebanyak 61% Pemimpin AI percaya diri terhadap kemampuan mereka dalam mengakses dan mengelola data organisasi secara optimal untuk mendukung inisiatif AI, dibandingkan hanya 11% dari para Pembelajar AI.
Namun memberikan data eksklusif kepada model AI tidak sesederhana kelihatannya. Silo data, kontrol kualitas, dan berbagai tantangan lain kerap menjadi hambatan.
Secara garis besar, solusinya adalah menerapkan data fabric terintegrasi yang mampu meruntuhkan silo, memastikan interoperability, serta mengatur aliran data yang mulus di seluruh platform.
Namun seperti apa penerapannya dalam praktik? Berikut beberapa pertimbangan utama:
Rintangan pertama dalam banyak upaya AI adalah mengumpulkan dan menyimpan data, proses yang tidak sesederhana kelihatannya.
Merekam data dalam basis data tradisional sering kali menimbulkan silo data, yang akhirnya menghambat organisasi mengumpulkan keseluruhan informasi yang diperlukan untuk membangun basis data RAG yang efektif atau melakukan penyempurnaan model. Menurut IBM® Data Differentiator, 82% perusahaan mengalami silo data yang mengganggu alur kerja mereka.
Organisasi perlu mengimplementasikan pipeline untuk mengambil data dari sumber yang berbeda, menyiapkannya untuk digunakan dan menyimpannya di penyimpanan yang dapat diakses dan terpusat.
Mengambil dan menyiapkan data dapat melibatkan penggunaan alat pemrosesan stream, seperti Apache Kafka, atau alat yang mendukung proses ETL dan ELT integrasi data, seperti IBM® DataStage. Organisasi juga harus memilih repositori yang tepat untuk data, yang dapat mencakup:
Data lake, yang menawarkan penyimpanan berbiaya rendah yang dirancang untuk mengelola volume besar data mentah, baik yang terstruktur maupun tidak terstruktur.
Gudang data dibangun untuk mendukung upaya analitik data, intelijen bisnis, dan ilmu data.
Data lakehouse, seperti watsonx.data, menggabungkan kemampuan gudang dan danau menjadi satu solusi manajemen data.
Infrastruktur hybrid cloud juga merupakan komponen penting dari integrasi data. Banyak perusahaan saat ini memiliki data yang didistribusikan antara penyimpanan data on premises dan beberapa layanan cloud.
“Anda harus memastikan bahwa Anda dapat mengumpulkan semua informasi ini, di mana pun informasi tersebut berada, dan memasukkannya ke dalam model AI Anda,” kata Choie. “Jika Anda tidak menggunakan teknologi hibrida, Anda akan kehilangan sesuatu.”
Input yang buruk menyebabkan output yang buruk. Organisasi perlu memastikan data kepemilikan yang mereka masukan ke model AI dapat diandalkan dan akurat.
“Anda perlu mencari tahu emas dalam data Anda—pembeda—sehingga Anda bisa memperkuatnya,” kata Varshney. “Anda ingin mengurangi noise dalam data, dan Anda ingin memberikan data berkualitas tinggi untuk penyempurnaan.”
Data harus dibersihkan sebelum diteruskan ke AI. Kalau tidak, hal ini bisa membuat performa model menjadi lebih buruk.
Varshney menawarkan contoh tiket pusat panggilan dengan solusi yang tidak begitu jelas: “Orang mungkin mencoba lima cara berbeda untuk memperbaiki sebelum mereka menemukan yang berfungsi. Anda tidak dapat mengirim tiket itu langsung ke model. Ini akan sangat berisik. Ini akan berisi semua hal yang dicoba oleh orang-orang. Model mungkin bingung tentang hasil yang tepat. Anda ingin membersihkan noise sehingga model hanya melihat solusi yang sesungguhnya.”
Membersihkan, menyiapkan, dan mengkurasi kumpulan data melibatkan beberapa pekerjaan manual dari ilmuwan data dan analis, baik dari internal maupun eksternal. Ini juga melibatkan alat seperti:
Alat bantu manajemen data yang mendukung AI dapat secara otomatis memvalidasi data, menandai kesalahan, dan mengonversi data ke format yang tepat.
Generator data sintetis dapat membantu mengisi missing values dan menambah aset yang disiapkan oleh manusia dengan korpora yang lebih besar.
Alat bantu prapemrosesan data dan rekayasa, seperti Apache Spark dan pustaka Python pandas.
Alat observabilitas data dapat melacak aliran data dari waktu ke waktu, memantau penggunaan dan silsilah data, serta mendeteksi anomali.
Apa pun keunggulan kompetitif yang dapat diberikan oleh data eksklusif pada AI generatif, keunggulan strategis yang langgeng berasal dari menerapkan perpaduan teknologi dan proses bisnis yang tepat.
“Alur kerja itu sendiri adalah tempat uang berada,” jelas Varshney. “Model adalah komoditas, dan kami akan terus mendapatkan model yang lebih baik dan lebih baik lagi. Apa yang benar-benar perlu kita cari tahu adalah perpaduan bedah yang tepat untuk menyatukan AI tradisional, otomatisasi, dan AI generatif dalam sebuah alur kerja.”
Dengan kata lain, organisasi tidak bisa begitu saja menerapkan AI generatif—bahkan model yang sudah disesuaikan dengan kebutuhan mereka—ke dalam proses yang ada dan langsung berharap hasilnya optimal. Sebaliknya, mereka perlu mengevaluasi proses internal dan menyesuaikan alur kerja mereka dengan model, sama seperti mereka menyesuaikan model agar selaras dengan alur kerja tersebut.
Coba perhatikan mesin pencuci piring yang sederhana.
“Ketika kami mengembangkan mesin pencuci piring, kami tidak membayangkan mesin itu akan berdiri dan mencuci piring seperti yang kita lakukan di wastafel,” ujar Varshney. “Kita justru mengubah prosesnya agar mesin pencuci piring dapat benar-benar unggul dalam pekerjaannya. Kita merumuskan masalah dalam format yang tepat. Hal yang sama bisa kita lakukan untuk Anda. Kita perlu merekayasa ulang proses dan menemukan perpaduan ideal antara AI tradisional dan AI generatif. Setelah itu, barulah nilai sesungguhnya mulai terbuka.”
