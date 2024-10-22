Unternehmen haben eine ganze Reihe neuer Projekte in der Pipeline, die sich generative KI zunutze machen. Während der Datenerfassungs- und -verarbeitungsphase müssen Sie riesige Datenmengen sammeln, um das Modell zu füttern, und Sie gewähren verschiedenen Personen Zugriff darauf, darunter Data Scientists, Ingenieuren und Entwicklern. Dies birgt ein gewisses Risiko, da alle Daten an einem Ort zentralisiert sind und viele Personen Zugriff darauf haben. Das bedeutet, dass generative KI eine neue Art von Datenspeicher ist, die neue Daten auf Basis bestehender Organisationsdaten erstellen kann. Egal, ob Sie das Modell trainiert, fein abgestimmt oder mit einem RAG (Vector DB) verbunden haben, diese Daten enthalten wahrscheinlich PII, Datenschutzbedenken und andere sensible Informationen. Dieser Berg sensibler Daten ist ein leuchtend rotes Ziel, auf das Angreifer zugreifen wollen.

Im Rahmen der Modellentwicklung werden neue Anwendungen auf völlig neue Art und Weise entwickelt, die neue Schwachstellen aufweisen, die Angreifer auszunutzen versuchen. Die Entwicklung beginnt oft damit, dass Data-Science-Teams vortrainierte Open-Source-ML-Modelle aus Online-Modellrepositories wie HuggingFace oder TensorFlow Hub herunterladen und neu verwenden. Open-Source-Modell-Sharing-Repositories sind aus der inhärenten Komplexität der Data Science, dem Mangel an Fachkräften und dem Nutzen entstanden, den sie Unternehmen bieten, indem sie den Zeit- und Arbeitsaufwand für die Einführung generativer KI drastisch reduzieren. Allerdings weisen solche Repositories oft Defizite bei den Sicherheitskontrollen auf, wodurch das Risiko letztendlich auf das Unternehmen abgewälzt wird – und Angreifer setzen genau darauf. Sie können eine Backdoor oder Malware in eines dieser Modelle einschleusen und das infizierte Modell wieder in die Modell-Sharing-Repositories hochladen, wodurch jeder betroffen ist, der es herunterlädt. Der allgemeine Mangel an Sicherheit rund um ML-Modelle, verbunden mit den zunehmend sensiblen Daten, denen ML-Modelle ausgesetzt sind, führt dazu, dass Angriffe auf diese Modelle ein hohes Schadenspotenzial bergen.

Während der Inferenz und der Live-Nutzung können Angreifer Prompts manipulieren, um Schutzmechanismen zu umgehen und Modelle zu Fehlverhalten zu verleiten, indem sie unzulässige Antworten auf schädliche Prompts generieren, einschließlich voreingenommener, falscher und anderer schädlicher Informationen, wodurch Reputationsschäden verursacht werden. Oder Angreifer manipulieren das Modell und analysieren Eingabe-Ausgabe-Paare, um ein Ersatzmodell so zu trainieren, dass es das Verhalten des Zielmodells nachahmt, wodurch seine Funktionen effektiv „gestohlen“ werden und das Unternehmen seinen Wettbewerbsvorteil verliert.