Open-Source-Komponenten spielen eine entscheidende Rolle in der KI-Lieferkette. Nur die größten Unternehmen haben Zugang zu den riesigen Datenmengen, die zum Trainieren eines Modells von Grund auf benötigt werden, daher sind sie stark auf Open-Source-Datensätze wie LAION 5B oder Common Corpus angewiesen. Aufgrund der schieren Größe dieser Datensätze ist es außerdem äußerst schwierig, die Datenqualität zu gewährleisten und Urheberrechts- und Datenschutzgesetze einzuhalten. Im Gegensatz dazu sind viele gängige Modelle generative KI wie ChatGPT Blackboxen, da sie ihre eigenen Datensätze kuratieren. Dies bringt eine Reihe von Sicherheitsherausforderungen mit sich.

Vertikalisierte und proprietäre Modelle können Open-Source-Grundmodelle mit zusätzlichem Training mit eigenen Datensätzen verfeinern. Ein Unternehmen, das beispielsweise einen Chatbot für Kundenservice der nächsten Generation entwickelt, könnte seine bisherigen Kundenkommunikationsdaten nutzen, um ein auf seine spezifischen Bedürfnisse zugeschnittenes Modell zu erstellen. Solche Daten sind seit langem ein Ziel für Cyberkriminelle, aber der kometenhafte Aufstieg von generativer KI hat sie für schändliche Akteure umso attraktiver gemacht.

Durch gezielte Angriffe auf diese Datensätze können Cyberkriminelle sie mit Fehlinformationen oder Schadcode und -daten vergiften. Sobald diese manipulierten Informationen in den Trainingsprozess des KI-Modells gelangen, beginnt sich ein Dominoeffekt auszubreiten, der den gesamten Lebenszyklus der KI-Software umfasst. Das Training eines großen Sprachmodells (LLM) kann Tausende von Stunden und enorme Rechenleistung in Anspruch nehmen. Es ist ein enorm kostspieliges Unterfangen, sowohl finanziell als auch ökologisch. Wenn jedoch die für das Training verwendeten Datensätze beeinträchtigt wurden, muss der gesamte Prozess wahrscheinlich von vorne beginnen.