Constitutional AI2 adalah seperangkat etika AI dan prinsip-prinsip keamanan yang dibuat oleh perusahaan rintisan AI, Anthropic. Saat merancang Claude, Anthropic mendapatkan input dari sekitar 1.000 orang, meminta mereka untuk memberikan suara dan menyarankan aturan untuk operasi AI generatif yang etis dan penggunaan AI yang bertanggung jawab . Susunan akhir aturan menjadi dasar dari proses pelatihan Claude.

Tiga aturan pertama Constitutional AI adalah:

Pilih respons yang paling tidak berbahaya atau penuh kebencian.

Pilih respons yang dapat diandalkan, sejujur dan sedekat mungkin dengan kebenaran.

Pilih respons yang paling menyampaikan maksud yang jelas.

Model lain memiliki konten mereka diulas oleh pelatih manusia dalam proses yang disebut pembelajaran penguatan dari masukan manusia (RLHF), sedangkan Claude dilatih dengan RLHF serta model AI. Pembelajaran penguatan dari masukan AI (RLAIF) menugaskan model “pelatih” untuk membandingkan perilaku Claude dengan Constitutional AI dan memperbaikinya.