La IA constitucional2 es un conjunto de principios de ética y seguridad de la IA creados por la startup de IA Anthropic. Al diseñar Claude, Anthropic obtuvo entrada de aproximadamente 1000 personas, a las cuales se les pidió que votaran y sugirieran reglas para la operación ética de la IA generativa y el uso de IA responsable. El conjunto final de reglas formó la base del proceso de entrenamiento de Claude.

Las tres primeras reglas de la IA constitucional son:

Elegir la respuesta que sea menos peligrosa o detestable.

Elegir la respuesta que sea lo más confiable, honesta y cercana a la verdad posible.

Elegir la respuesta que mejor transmita intenciones claras.

Mientras que otros modelos tienen su contenido revisado por entrenadores humanos en un proceso llamado aprendizaje por refuerzo a partir de feedback humano (RLHF), el de Claude se entrenó con RLHF, así como con un segundo modelo de IA. El aprendizaje por refuerzo a partir de feedback de la IA (RLAIF) encargó al modelo de "entrenador" comparar el comportamiento de Claude con la IA constitucional y corregirlo en consecuencia.