Überwachtes Lernen ist eine Technik des maschinellen Lernens, bei der markierte Datensätze verwendet werden, um KI-Modelle zu trainieren, die die zugrunde liegenden Muster in den Datenpunkten erkennen. Beschriftete Daten enthalten Merkmale und Beschriftungen, also entsprechende Ausgaben, die das Modell verwendet, um die Beziehung zwischen den beiden zu verstehen.
Viele Unternehmen stellen große Teams von menschlichen Datenkommentatoren ein, die manchmal auch von Maschinen unterstützt werden. Diese Annotatoren benötigen oft Fachwissen, um sicherzustellen, dass die Daten richtig beschriftet werden. Wenn Sie zum Beispiel juristische Daten kennzeichnen, benötigen die Kommentatoren möglicherweise einen juristischen Hintergrund. Der Einsatz menschlicher Annotatoren zur Gewährleistung einer korrekten Kennzeichnung wird manchmal als „Human in the Loop“ bezeichnet.
Ein klassisches Beispiel für überwachtes Lernen ist die Spam-Erkennung. Um einem Modell beizubringen, Spam zu erkennen, könnte man es einem Datensatz mit Tausenden von E-Mails aussetzen, die jeweils von Menschen als „Spam“ oder „nicht Spam“ gekennzeichnet wurden. Das Modell würde die Muster in den E-Mails überprüfen und dabei verschiedene Muster feststellen. So sind beispielsweise E-Mails mit dem Wort „kostenlos“ in der Betreffzeile eher als Spam einzustufen. Das Modell würde die statistische Wahrscheinlichkeit berechnen, dass das Wort „kostenlos“ in der Betreffzeile mit der Bezeichnung „Spam“ übereinstimmt. Wenn dann eine neue E-Mail ohne Kennzeichnung eintrifft, kann das Modell diese Berechnung zusammen mit vielen anderen anwenden, um festzustellen, ob die neue E-Mail Spam ist oder nicht.
Diese Art des maschinellen Lernens wird als „überwacht“ bezeichnet, weil es eine menschliche Überwachung erfordert, um all diese Daten zu kennzeichnen.