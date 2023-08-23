Große Sprachmodelle können auf eigenen Daten trainiert werden, um spezifische Anwendungsfälle zu erfüllen. Zum Beispiel könnte ein Unternehmen ChatGPT nehmen und ein privates Modell erstellen, das auf den CRM-Verkaufsdaten des Unternehmens trainiert wird. Dieses Modell könnte als Slack-Chatbot bereitgestellt werden, um Vertriebsteams dabei zu helfen, Antworten auf Fragen wie „Wie viele Chancen hat Produkt X im letzten Jahr gewonnen?“ oder „Informieren Sie mich über die Geschäftschancen von Produkt Z bei Unternehmen Y“ zu finden.

Sie können sich leicht vorstellen, dass diese LLMs für eine beliebige Anzahl von Anwendungsfällen im Kundenservice, in der Personalabteilung oder im Marketing eingesetzt werden können. Es ist sogar denkbar, dass sie die juristische und medizinische Beratung ergänzen und LLMs zu einem diagnostischen Instrument der ersten Wahl für Gesundheitsdienstleister machen. Das Problem ist, dass diese Anwendungsfälle das Training von LLMs auf sensiblen, geschützten Daten erfordern. Das ist von Natur aus riskant. Einige dieser Risiken sind:

1. Datenschutz- und Re-Identifizierungsrisiko

KI-Modelle lernen aus Trainingsdaten, aber was ist, wenn diese Daten privat oder vertraulich sind? Eine beträchtliche Menge an Daten kann direkt oder indirekt zur Identifizierung bestimmter Personen verwendet werden. Wenn wir also ein LLM auf geschützte Daten über die Kunden eines Unternehmens trainieren, können wir in Situationen geraten, in denen die Nutzung dieses Modells dazu verwendet werden könnte, sensible Informationen preiszugeben.

2. Modellinterne Lerndaten

Viele einfache KI-Modelle haben eine Trainingsphase und anschließend eine Bereitstellungphase, in der das Training pausiert wird. LLMs sind ein bisschen anders. Sie nehmen den Kontext Ihres Gesprächs mit ihnen, lernen daraus und reagieren dann entsprechend.

Das macht die Verwaltung der Modelleingabedaten unendlich komplexer, da wir uns nicht nur um die anfänglichen Trainingsdaten kümmern müssen. Wir machen uns auch jedes Mal Sorgen, wenn das Modell abgefragt wird. Was, wenn wir dem Modell während eines Gesprächs sensible Informationen einspeisen? Können wir die Sensitivität identifizieren und verhindern, dass das Modell diese in anderen Kontexten verwendet?

3. Sicherheits- und Zugriffsrisiko

In gewissem Maße bestimmt die Sensitivität der Trainingsdaten die Sensitivität des Modells. Obwohl wir über gut etablierte Mechanismen verfügen, um den Zugriff auf Daten zu kontrollieren, zu überwachen, wer auf welche Daten zugreift, und Daten je nach Situation dynamisch zu maskieren, befindet sich die Sicherheit der KI-Bereitstellung noch in der Entwicklung. Obwohl es in diesem Bereich immer mehr Lösungen gibt, können wir die Sensibilität der Modellausgabe auf der Grundlage der Rolle der Person, die das Modell verwendet, immer noch nicht vollständig kontrollieren (z. B. wenn das Modell erkennt, dass eine bestimmte Ausgabe sensibel sein könnte, und die Ausgabe dann zuverlässig ändert, je nachdem, wer das LLM abfragt). Aus diesem Grund können diese Modelle leicht zu Sicherheitslücken für jegliche Art von sensiblen Informationen werden, die im Rahmen des Modelltrainings anfallen.

4. Risiko im Zusammenhang mit geistigem Eigentum

Was passiert, wenn wir ein Modell auf jedem Song von Drake schulen und das Modell dann anfängt, Drake-Kopien zu generieren? Verletzt das Model Drakes Urheberrechte? Können Sie beweisen, ob das Modell Ihre Arbeit in irgendeiner Weise kopiert?

Dieses Problem wird immer noch von den Aufsichtsbehörden geklärt, aber es könnte leicht zu einem großen Problem für jede Form von generativer KI werden, die aus künstlerischem geistigem Eigentum lernt. Wir gehen davon aus, dass dies in der Zukunft zu großen Klagen führen wird, die durch eine ausreichende Überwachung des geistigen Eigentums der für das Training verwendeten Daten abgefedert werden müssen.

5. Einwilligung und DSAR-Risiko

Eine der wichtigsten Ideen hinter den modernen Datenschutzbestimmungen ist die Zustimmung. Kunden müssen der Verwendung ihrer Daten zustimmen und sie müssen verlangen können, dass ihre Daten gelöscht werden. Das stellt ein einzigartiges Problem für die Nutzung von KI dar.

Wenn Sie ein KI-Modell mit sensiblen Kundendaten trainieren, wird dieses KI-Modell zu einer möglichen Angriffsquelle für diese sensiblen Daten. Wenn ein Kunde die Nutzung seiner Daten durch das Unternehmen widerruft (eine Anforderung der Datenschutz-Grundverordnung) und das Unternehmen bereits ein Modell auf die Daten trainiert hat, müsste das Modell im Grunde stillgelegt und neu trainiert werden, ohne auf die widerrufenen Daten zugreifen zu können.

Um LLMs als Unternehmenssoftware nutzbar zu machen, müssen die Trainingsdaten so verwaltet werden, dass die Unternehmen auf die Sicherheit der Daten vertrauen können und einen Prüfpfad für die Nutzung der Daten durch das LLM haben.