I componenti open source svolgono un ruolo critico nella supply chain dell'AI. Solo le imprese più grandi hanno accesso alle enormi quantità di dati necessarie per addestrare un modello da zero, quindi devono fare molto affidamento su set di dati open source come LAION 5B o Common Corpus. La mole di questi set di dati significa anche che è estremamente difficile mantenere la qualità dei dati e la conformità alle leggi sul copyright e sulla privacy. Al contrario, molti modelli di AI generativa mainstream come ChatGPT sono black box in quanto utilizzano i propri set di dati resi accurati. Ciò comporta una serie di sfide per la sicurezza.

I modelli verticalizzati e proprietari possono perfezionare i foundation model open source con una formazione supplementare utilizzando i propri set di dati. Ad esempio, un'azienda che sviluppa un customer service chatbot di nuova generazione potrebbe utilizzare i precedenti registri di comunicazione con i clienti per creare un modello su misura per le proprie esigenze specifiche. Tali dati sono da tempo un bersaglio per i criminali informatici, ma la rapida ascesa dell'AI generativa li ha resi ancora più attraenti per attori nefasti.

Prendendo di mira questi set di dati, i criminali informatici possono avvelenarli con misinformazione o codice e dati dannosi. Poi, una volta che queste informazioni compromesse entrano nel processo di addestramento dei modelli AI, iniziamo a vedere un effetto a catena che attraversa l'intero ciclo di vita del software AI. Possono volerci migliaia di ore e una grande quantità di potenza di calcolo per addestrare un modello linguistico di grandi dimensioni (LLM). È un'impresa estremamente costosa, sia dal punto di vista economico che ambientale. Tuttavia, se i set di dati utilizzati nell'addestramento sono stati compromessi, è probabile che si debba ricominciare l'intero processo da zero.