Apa itu prompting stimulus terarah (DSP)?

Penulis

Shalini Harkar

Lead AI Advocate

Apa yang dimaksud dengan prompting stimulus terarah (Directional Stimulus Prompting, DSP)?

Prompting stimulus terarah (DSP) adalah metodologi prompting baru dalam pemrosesan bahasa alami (NLP) di mana model disajikan dengan arahan atau stimulus terstruktur untuk menghasilkan output yang diinginkan.

Tidak seperti prompting standar seperti prompting dengan satu contoh, tanpa contoh, atau beberapa contoh, pendekatan ini membedakan dirinya dengan memberikan kontrol langsung atas output dengan menetapkan kriteria atau memberikan instruksi. Dalam pendekatan ini, stimulus pemandu bertindak sebagai mekanisme kontrol dari proses generatif model di sepanjang garis yang ditentukan oleh kriteria tertentu.

Prompting stimulus terarah (DSP) berguna ketika sebuah tugas membutuhkan serangkaian respons yang spesifik, sangat peka terhadap konteks, tetapi tanpa data berlabel.

Misalnya, dalam kasus tugas perangkuman, di mana mempertahankan informasi penting sangat penting, DSP memberikan stimulus pemandu yang memerintahkan model untuk menghasilkan dengan cara tertentu. Hal ini mengarah pada pembuatan keseluruhan ringkasan yang lebih akurat dan sesuai dari segi konteks.1

Berpikir melampaui prompt dan dapatkan konteks utuh 

Tetaplah menjadi yang terdepan dalam berita industri terbaru, alat AI, dan tren baru dalam rekayasa prompt dengan Buletin Think. Selain itu, dapatkan akses ke artikel penjelas, tutorial, dan insight pakar baru—dikirimkan langsung ke kotak masuk Anda. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Kebutuhan akan prompting stimulus terarah

Model bahasa besar (LLM) seperti GPT-3, 4, dan PALM umumnya disebut sebagai model "kotak hitam" karena pengguna tidak memiliki akses ke aspek internal mereka, seperti parameter, metode penyetelan, atau proses pengambilan keputusan.

Interaksi tersebut pada dasarnya terjadi melalui prompt teks yang menggunakan panggilan antarmuka pemrograman aplikasi (API) sebagai mekanisme input dan output utama. Meskipun semua model ini sangat bagus, namun kemampuan mereka untuk menghasilkan output khusus tugas yang tepat sering kali sangat bergantung pada kualitas prompt.2, 3

Ini berarti bahwa rekayasa prompt untuk merancang prompt yang ditargetkan untuk mengarahkan perilaku model adalah relevan. Baik pendekatan manual maupun otomatis pada rekayasa prompt telah menghasilkan kesuksesan yang luar biasa. Namun demikian, semua itu tidak dicapai dengan mudah, terutama untuk tugas yang membutuhkan kontrol yang kuat atau output yang sangat spesifik instans.

Misalnya, berbagai tugas seperti perangkuman atau pembuatan dialog mengharuskan model untuk mengikuti perilaku target secara sistematis, seperti menyertakan detail penting atau mematuhi pola penalaran yang ketat atau pedoman gaya yang telah ditentukan. Teknik konvensional sering kali tidak cukup untuk menjamin kepatuhan yang konsisten dengan persyaratan mendalam ini.

Prompting stimulus terarah (DSP) hadir untuk mengisi celah ini. DSP adalah model kebijakan tambahan kecil dan menghasilkan prompt stimulus terarah spesifik instans yang memandu LLM dalam mengambil keputusan.

Prompt yang diberikan merupakan konteks khusus untuk setiap instans dan dianggap mendorong LLM menghasilkan output yang lebih selaras dan sesuai keinginan. Dengan memasukkan DSP ke dalam proses, pengguna memiliki alat yang tangguh untuk mengoreksi perilaku LLM kotak hitam agar lebih konsisten, relevan, dan akurat dalam pekerjaan yang membutuhkan ketelitian.1

Akademi AI

Menjadi pakar AI

Raih pengetahuan demi memprioritaskan investasi AI yang mendorong pertumbuhan bisnis. Mulai dengan Akademi AI gratis kami hari ini dan pimpin masa depan AI di organisasi Anda.

Cara kerja DSP

Melatih model kebijakan dengan penyempurnaan yang diawasi (SFT)

Proses pelatihan model kebijakan dimulai dengan penyempurnaan yang diawasi (SFT) pada model yang telah dilatih sebelumnya seperti T5, GPT-2, atau LLM lain yang sesuai. Ide utamanya adalah untuk menyempurnakan model kebijakan yang lebih kecil pada data pelatihan yang menghasilkan stimulus terarah ketimbang memodifikasi LLM secara langsung.

Proses ini efisien karena menyempurnakan model kebijakan yang lebih kecil dan spesifik untuk tugas tertentu dapat menghindari tantangan dan biaya komputasi yang terkait dengan pelatihan model yang besar dan kompleks secara langsung.

Untuk melatih model kebijakan ini, kumpulan data berlabel kecil dibuat, di mana setiap input dipasangkan dengan pseudostimulus. Stimulus semu ini dirancang untuk memandu respons LLM ke arah yang diinginkan berdasarkan tugas yang dihadapi.

Misalnya, dalam tugas perangkuman, pseudostimulus dapat terdiri dari kata kunci atau frasa yang diambil dari rangkuman referensi. Demikian pula untuk tugas pembuatan dialog, dialog yang bertindak seperti permintaan, pertanyaan, atau pernyataan dapat digunakan sebagai stimulus semu.

Stimulus ini berfungsi sebagai sinyal yang digunakan model kebijakan untuk menghasilkan input khusus tugas yang secara efektif mengarahkan output LLM ke arah perilaku target.

Kumpulan data yang berlabel yang digunakan untuk SFT mungkin relatif kecil, mengingat fokusnya adalah menyediakan model bahasa kebijakan dengan pengetahuan yang diperlukan untuk menghasilkan stimulus, bukan pelatihan LLM yang masif dari awal. Hal ini menjadikan SFT cara yang efisien terkait sumber daya untuk meningkatkan model kebijakan dengan pengetahuan dasar tentang persyaratan khusus tugas.4

Penyempurnaan melalui pembelajaran penguatan (RL)

Setelah penyempurnaan awal dengan SFT, model kebijakan dioptimalkan melalui pembelajaran penguatan (RL). RL memungkinkan model kebijakan untuk menjelajahi dan menyempurnakan kemampuannya dalam menghasilkan stimulus yang mengarah pada output LLM yang lebih berkualitas. Ide utama dalam fase ini adalah menggunakan fungsi imbalan untuk mengevaluasi efektivitas stimulus yang dihasilkan.

Misalnya, dalam tugas perangkuman, fungsi imbalan dapat didasarkan pada metrik seperti skor ROUGE atau BLEU, yang mengukur kualitas rangkuman yang dihasilkan sebagai pembanding. 

Dengan berfokus pada pelatihan model kebijakan alih-alih LLM secara langsung, DSP mengatasi tantangan yang terkait dengan penyempurnaan model kotak hitam, yang mengarah ke metode yang lebih efisien dan dapat diskalakan. 

Gambar 1: Arsitektur kerangka kerja DSP 

 

Pro dan kontra dari DSP

Prompting stimulus terarah memiliki keuntungan yang menonjol dan sejumlah tantangan, menjadikannya teknik yang menarik namun rumit. Berikut adalah pembahasan lebih terperinci tentang kelebihan dan kekurangannya.5

Pro:

Mekanisme perhatian yang ditargetkan: Mekanisme perhatian yang ditargetkan dalam DSP menekankan token atau informasi yang relevan, sehingga meningkatkan akurasi dan efisiensi dengan memusatkan pemrosesan pada komponen penting.

Penggunaan sumber daya yang dioptimalkan: Dengan berkonsentrasi pada stimulus yang relevan, prompting stimulus terarah mengurangi persyaratan kumpulan data, menghasilkan waktu pemrosesan yang lebih cepat dan biaya komputasi yang lebih rendah.

Presisi lebih baik: Dengan mengisolasi dan menekankan token input yang paling relevan, prompting stimulus terarah meningkatkan keakuratan respons dan penafsiran model bahasa.

Kemampuan beradaptasi: Pendekatan ini dapat disesuaikan untuk berbagai tugas bahasa, mulai dari pembuatan teks hingga analisis sentimen, menawarkan fleksibilitas di berbagai aplikasi pemrosesan bahasa alami.

Kontra:

Ketergantungan pada isyarat yang akurat: Keberhasilan prompting stimulus terarah sangat bergantung pada stimulus yang tepat, yang bisa jadi sulit dicapai di lingkungan yang kompleks atau tidak relevan. Jika konteks atau stimulus mengalami perubahan yang signifikan, keefektifan metode ini dapat berkurang, yang mengakibatkan penurunan keandalan.

Kompleksitas konfigurasi: Menyiapkan stimulus terarah memerlukan desain dan kalibrasi cermat yang dapat mempersulit proses konfigurasi awal.

Generalisasi terbatas: DSP memiliki kapasitas terbatas dalam menggeneralisasi berbagai jenis sinyal atau variasi input yang tidak terduga, sehingga sulit diterapkan dalam konteks yang lebih luas.

Contoh penggunaan

Prompting stimulus terarah (DSP) menunjukkan potensi besar di berbagai tugas NLP, secara efektif memandu model untuk meningkatkan kinerjanya.

Perangkuman: DSP digunakan untuk membuat ringkasan sesuai keinginan yang lebih selaras dengan ringkasan referensi. Dalam sebuah hasil eksperimen yang menggunakan kumpulan data kecil sebanyak 4.000 sampel dari kumpulan data CNN/Daily Mail, DSP meningkatkan kinerja tolok ukur seperti ROUGE dan BLEU atau ukuran lain termasuk skor preferensi manusia sebesar 4–13%, melampaui beberapa model yang diawasi sepenuhnya.6

Pembuatan respons dialog: Dalam pembuatan dialog yang berorientasi pada tugas, DSP membantu ChatGPT dalam menghasilkan respons yang lebih akurat dan relevan. Sebagai contoh, dengan hanya 80 dialog dari kumpulan data MultiWOZ, DSP mencapai peningkatan kinerja sebesar 41,4%, melampaui beberapa model canggih (seperti ChatGPT, Codex, dan InstructGPT) yang dilatih pada kumpulan data yang lebih besar.7

Penalaran rantai pemikiran: DSP juga meningkatkan penalaran rantai pemikiran dengan menghasilkan prompt khusus instans yang mengungguli prompt khusus tugas yang dirancang oleh manusia dan dibuat secara otomatis, yang mengarah pada peningkatan akurasi penalaran. Semua contoh ini mengilustrasikan bagaimana DSP dapat menawarkan panduan yang ditargetkan, sehingga meningkatkan kinerja model di berbagai aplikasi NLP.8

Solusi terkait
IBM® watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Jelajahi watsonx.ai
Solusi kecerdasan buatan (AI)

Manfaatkan AI di bisnis Anda dengan perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan kecerdasan buatan (AI)

Layanan IBM Consulting AI membantu merancang ulang cara kerja bisnis dengan AI untuk transformasi.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dengan menggunakan AI, IBM Concert mengungkap insight penting tentang operasi Anda dan memberikan rekomendasi spesifik aplikasi untuk perbaikan. Temukan cara Concert dapat memajukan bisnis Anda.

Jelajahi Concert Jelajahi solusi otomatisasi proses bisnis
Catatan kaki

1 Zekun Li, Baolin Peng, Pengcheng He, Michel Galley, Xifeng Yan, jianfeng gao,(Microsoft, 22 Februari 2023), Guiding Large Language Models via Directional Simulus Prompting, arXiv:2302.11520.
https://github.com/Leezekun/Directional-Stimulus-Prompting. 

2 Sun, T., et.al, Black-box tuning for language-model as-a-service. Dalam Konferensi Internasional Machine Learning, hal. 20841–20855. PMLR, 2022.

3 OpenAI. Laporan teknis Gpt-4, 2023.

4 Wanwei He, et al., Galaxy: A generative pre-trained model for task-oriented dialog with semi-supervised learning and explicit policy injection. Dalam Prosiding Konferensi AAAI tentang Kecerdasan Buatan, hal. 10749–10757, 2022.

5 Fei Liu (11 Oktober 2024), A Systematic Survey on Large Language Models for Algorithm Design. arXiv: 2410.14716.

6 Goyal, T., Li, J. J., and Durrett, G. News summarization and evaluation in the era of GPT-3. arXiv preprint arXiv: 2209.12356, 2022.

7 Khattab, O., Santhanam, K., Li, X. L., Hall, D., Liang, P., Potts, C., dan Zaharia, M. Demonstrate-search-predict: Composing retrieval and language models for knowledge-intensive nlp. arXiv preprint arXiv: 2212.14024, 2022.

8 Shi, W., Min, S., Yasunaga, M., Seo, M., James, R., Lewis, M., Zettlemoyer, L., dan Yih, W.-t. Replug: Retrieval-augmented black-box language models. arXiv preprint arXiv: 2301.12652, 2023.