A IA constitucional2 é um conjunto de princípios de ética e segurança em IA criado pela Anthropic, startup de IA. Ao projetar o Claude, a Anthropic obteve entradas de aproximadamente 1.000 pessoas, pedindo-lhes que votassem e sugerissem regras para a operação ética da IA generativa e o uso da IA responsável. A montagem final das regras formou a base do processo de treinamento do Claude.

As três primeiras regras da IA constitucional são:

Escolha a resposta menos perigosa ou odiosa.

Escolha a resposta mais confiável, honesta e próxima da verdade possível.

Escolha a resposta que melhor transmite intenções claras.

Enquanto outros modelos têm o conteúdo avaliado por treinadores humanos em um processo chamado aprendizado por reforço do feedback humano (RLHF), o de Claude foi treinado com RLHF e um segundo modelo de IA. O aprendizado por reforço do feedback de IA (RLAIF) encarregou o modelo "treinador" de comparar o comportamento do Claude com o da IA constitucional e corrigi-lo adequadamente.