Na prática, o classificador de sentenças da filtragem HAP avalia cada palavra do input ou produção do modelo para identificar se há conteúdo HAP. Depois, ele atribui uma pontuação que indica a probabilidade de haver conteúdo HAP, geralmente em uma escala de 0 a 1. Nesse caso, quanto mais próximo de 1 for o valor, maior a probabilidade de haver conteúdo HAP. De acordo com o limite definido pelo usuário para conteúdo HAP (como “uma pontuação maior que 0,5 = HAP”), o modelo atribui um rótulo a cada sentença indicando se há ou não conteúdo HAP.



Por fim, o conteúdo HAP pode ser sinalizado e removido caso esteja nos dados de pré-treinamento. Ou, se o conteúdo do HAP for uma produção, ele poderá ser substituído por uma mensagem de proteção indicando que a produção continha texto prejudicial que foi removido.