Gli aggressori prendono di mira anche i modelli AI durante l'addestramento e lo sviluppo, quindi è essenziale che i red team simulino gli stessi attacchi per identificare rischi che potrebbero compromettere l'intero progetto. Un attacco di data poisoning si verifica quando un avversario introduce dati dannosi nel set di addestramento, corrompendo così il processo di apprendimento e embedding vulnerabilità nel modello stesso. Il risultato è che l'intero modello diventa un potenziale punto d'ingresso per ulteriori attacchi. Se i dati di addestramento vengono compromessi, di solito è necessario riaddestrare il modello da zero. Si tratta di un'operazione che richiede molte risorse e molto tempo.

Il coinvolgimento del red team è fondamentale fin dall'inizio del processo di sviluppo dei modelli AI per mitigare il rischio di avvelenamento dei dati. I red team simulano attacchi reali di avvelenamento dei dati in un ambiente sandbox sicuro, separato dai sistemi di produzione esistenti. Ciò fornisce insight su quanto sia vulnerabile il modello all'avvelenamento dei dati e su come i veri attori delle minacce potrebbero infiltrarsi o compromettere il processo di formazione.

Anche i team AI possono individuare in modo proattivo i punti deboli nei processi di raccolta dati. I modelli linguistici di grandi dimensioni (LLM) spesso attingono dati da un numero enorme di fonti diverse. ChatGPT, ad esempio, è stato addestrato su un vasto corpus di dati di testo provenienti da milioni di siti web, libri e altre fonti. Quando si costruisce un LLM proprietario, è fondamentale che le organizzazioni sappiano esattamente da dove ottengono i dati di formazione e come vengono controllati per la qualità. Anche se questo è più un lavoro per i revisori della sicurezza e i revisori dei processi, i red team possono utilizzare i test di penetrazione per valutare la capacità di un modello di resistere ai difetti nella sua pipeline di raccolta dati.