O ChatGPT foi treinado com grandes conjuntos de dados retirados da internet. Esses dados incluem postagens em fóruns, notícias, imagens e sites. Por exemplo, o GPT-3 foi treinado com mais de 45 terabytes de dados textuais, incluindo toda a Wikipédia disponível na época. Isso permite ao modelo compreender os padrões da linguagem humana e identificar as relações entre diferentes temas.

Os modelos GPT são treinados com uma combinação de técnicas, incluindo aprendizado supervisionado , não supervisionado e aprendizado por reforço com feedback humano (RLHF) , em que treinadores avaliam as respostas e definem recompensas para melhorar o desempenho. As primeiras fases do pré-treinamento ocorrem de forma não supervisionada, e o RLHF é aplicado posteriormente para o ajuste fino .

A equipe aplicou um ajuste fino no ChatGPT com base nos modelos GPT, usando conjuntos de dados adicionais de conversas, como diálogos de filmes. O treinamento não supervisionado leva o modelo a processar grandes volumes de dados não estruturados e identificar por conta própria os padrões e significados do conteúdo.

O ChatGPT responde ao feedback humano. Os usuários podem instruir o ChatGPT a se comportar de maneiras específicas, como um terapeuta ou guia de carreira. O feedback do usuário também se estende aos botões de polegar para cima e polegar para baixo, que podem personalizar ainda mais as respostas do ChatGPT.