CAPTCHA steht für vollständig automatisierter öffentlicher Turing-Test zur Unterscheidung von Computern und Menschen – „Completely Automated Public Turing test* to tell Computers and Humans Apart.“ Der Begriff bezieht sich auf verschiedene Authentifizierungsmethoden, die Benutzer als Menschen und nicht als Bots validieren, indem sie eine Herausforderung darstellen, die für Menschen einfach, für Maschinen jedoch schwierig ist.
CAPTCHAs verhindern, dass Betrüger und Spammer Bots verwenden, um Webformulare für bösartige Zwecke auszufüllen.
Bei herkömmlichen CAPTCHAs mussten Benutzer verzerrten Text lesen und korrekt erneut eingeben, der von der OCR-Technologie (Optical Character Recognition) nicht richtig erkannt werden konnte. Neuere Iterationen der CAPTCHA-Technologie verwenden KI-gesteuerte Verhaltens- und Risikoanalysen, um menschliche Benutzer anhand von Aktivitätsmustern und nicht anhand einer einzelnen Aufgabe zu authentifizieren.
Auf vielen Websites müssen Benutzer eine CAPTCHA-Aufgabe lösen, bevor sie sich in ein Kontoprofil einloggen, ein Registrierungsformular einreichen, einen Kommentar posten oder eine andere Aktion ausführen können, die Hacker möglicherweise mit einem Bot ausführen würden. Indem sie die Herausforderung meistern, bestätigen die Benutzer, dass sie Menschen sind, und dürfen dann ihre Aktivität auf der Website fortsetzen.
* Ein Turing-Test, benannt nach seinem Erfinder Alan Turing, testet die Fähigkeit einer Maschine, menschliche Intelligenz zu zeigen.
Mehrere verschiedene Gruppen entwickelten die ersten Formen der CAPTCHA-Technologie parallel in den späten 1990er und frühen 2000er Jahren. Jede Gruppe arbeitete daran, das weit verbreitete Problem von Hackern zu bekämpfen, die Bots für kriminelle Aktivitäten im Internet einsetzen. Zum Beispiel wollten Informatiker, die für die Suchmaschine AltaVista arbeiteten, verhindern, dass Bots schädliche Webadressen zur Link-Datenbank des Unternehmens hinzufügten.
Forscher des IT-Unternehmens Sanctum entwickelten 1997 das erste CAPTCHA-ähnliche System. Der Begriff CAPTCHA wurde jedoch erstmals 2003 von einer Gruppe von Computerwissenschaftlern der Carnegie Mellon University unter der Leitung von Luis von Ahn und Manuel Blum eingeführt. Dieses Team wurde von einem leitenden Angestellten von Yahoo zur Arbeit an dieser Technologie inspiriert, der einen Vortrag über die Probleme des Unternehmens mit Spambots hielt, die sich für Millionen gefälschter E-Mail-Konten anmelden.
Um das Problem von Yahoo zu lösen, entwickelten von Ahn und Blum ein Computerprogramm, das:
Da die OCR-Technologie der damaligen Zeit Schwierigkeiten hatte, einen derart verzerrten Text zu entziffern, konnten Bots die CAPTCHA-Herausforderung nicht meistern. Wenn ein Benutzer die richtige Zeichenfolge eingab, konnte man davon ausgehen, dass es sich um einen Menschen handelte, und er durfte seine Kontoregistrierung abschließen oder das Webformular absenden.
Yahoo hat die Technologie von Carnegie Mellon implementiert, bei der alle Benutzer einen CAPTCHA-Test bestehen müssen, bevor sie sich für eine E-Mail-Adresse anmelden können. Dadurch wurde die Spambot-Aktivität erheblich reduziert, und andere Unternehmen führten CAPTCHAs ein, um ihre Webformulare zu schützen. Im Laufe der Zeit nutzten Hacker jedoch Daten aus abgeschlossenen CAPTCHA-Challenges, um Algorithmen zu entwickeln, die CAPTCHA-Tests zuverlässig bestehen. Dies war der Beginn eines anhaltenden Wettrüstens zwischen CAPTCHA-Entwicklern und Cyberkriminellen, das die Weiterentwicklung der CAPTCHA-Funktionalität vorangetrieben hat.
reCAPTCHA Version 1
Von Ahn startete reCAPTCHA v1 im Jahr 2007 mit einem doppelten Ziel: die textbasierte CAPTCHA-Herausforderung für Bots schwieriger zu knacken zu machen und die Genauigkeit der OCR zu verbessern, die zu dieser Zeit zur Digitalisierung gedruckter Texte verwendet wurde.
reCAPTCHA erreichte das erste Ziel, indem es die Verzerrung des dem Benutzer angezeigten Textes erhöhte und schließlich Linien durch den Text zog.
Das zweite Ziel wurde erreicht, indem ein einzelnes Bild eines zufällig generierten verzerrten Textes durch zwei verzerrte Textbilder von Wörtern ersetzt wurde, die von zwei verschiedenen OCR-Programmen aus tatsächlichen Texten gescannt wurden. Das erste Wort oder Kontrollwort war ein Wort, das von beiden OCR-Programmen korrekt identifiziert wurde. Das zweite Wort war ein Wort, das beide OCR-Programme nicht identifizieren konnten. Wenn der Benutzer das Kontrollwort richtig identifizierte, ging reCAPTCHA davon aus, dass es sich bei dem Benutzer um einen Menschen handelte, und erlaubte ihm, seine Aufgabe fortzusetzen. Außerdem ging reCAPTCHA davon aus, dass der Benutzer das zweite Wort richtig identifizierte, und verwendete die Antwort, um zukünftige OCR-Ergebnisse zu überprüfen.
Auf diese Weise verbesserte reCAPTCHA die Anti-Bot-Sicherheit und die Genauigkeit der im Internetarchiv und in der New York Times digitalisierten Texte. Ironischerweise trug es im Laufe der Zeit auch dazu bei, die Algorithmen für künstliche Intelligenz und maschinelles Lernen so weit zu verbessern, dass sie 2014 in 99,8 % der Fälle die am stärksten verzerrten Text-CAPTCHAs identifizieren konnten.
Im Jahr 2009 erwarb Google reCAPTCHA und begann, es zur Digitalisierung von Texten für Google Books zu nutzen und gleichzeitig anderen Unternehmen als Service anzubieten. Mit der Weiterentwicklung der OCR-Technologie mithilfe von reCAPTCHA entwickelten sich jedoch auch die Programme für künstliche Intelligenz weiter, die textbasierte reCAPTCHAs effektiv lösen konnten. Als Reaktion darauf führte Google 2012 die Bilderkennung reCAPTCHAs ein, bei der verzerrter Text durch Bilder aus Google Street View ersetzt wurde. Die Benutzer bewiesen ihre Menschlichkeit, indem sie reale Objekte wie Straßenlaternen und Taxis identifizierten. Diese bildbasierten reCAPTCHAs umgingen nicht nur die fortschrittliche OCR, die jetzt von Bots eingesetzt wird, sondern wurden auch als praktischer für Benutzer von mobilen Apps angesehen.
Google reCAPTCHA v2: No CAPTCHA reCAPTCHA
Im Jahr 2014 veröffentlichte Google reCAPTCHA v2, das text- und bildbasierte Herausforderungen durch ein einfaches Kontrollkästchen mit der Aufschrift „Ich bin kein Roboter“ ersetzte. Wenn Benutzer das Kästchen aktivieren, analysiert reCAPTCHA v2 die Interaktionen des Benutzers mit Webseiten und wertet dabei Faktoren wie Tippgeschwindigkeit, Cookies, Geräteverlauf und IP-Adresse aus, um festzustellen, ob es sich bei einem Benutzer wahrscheinlich um einen Menschen handelt. Das Kontrollkästchen ist auch Teil der Funktionsweise von CAPTCHA: No CAPTCHA reCAPTCHA verfolgt die Mausbewegungen des Benutzers, während er auf das Kästchen klickt. Die Bewegungen eines Menschen sind in der Regel eher chaotisch, während die Bewegungen von Bots präziser sind. Wenn no CAPTCHA reCAPTCHA den Verdacht hat, dass ein Benutzer ein Bot sein könnte, wird ihm eine bildbasierte CAPTCHA-Aufgabe gestellt.
reCAPTCHA v3
reCAPTCHA v3, das 2018 eingeführt wurde, verzichtet auf das Kontrollkästchen und erweitert die KI-gesteuerte Risikoanalyse von no CAPTCHA reCAPTCHA. ReCAPTCHA v3 wird über eine JavaScript-API in eine Webseite integriert und läuft im Hintergrund. Das Verhalten eines Benutzers wird auf einer Skala von 0,0 (wahrscheinlich ein Bot) bis 1,0 (wahrscheinlich ein Mensch) bewertet. Website-Betreiber können automatische Aktionen festlegen, die zu bestimmten Zeitpunkten ausgelöst werden, wenn die Punktzahl eines Benutzers darauf hindeutet, dass es sich um einen Bot handeln könnte. Beispielsweise können Blog-Kommentare von Benutzern mit niedriger Punktzahl an eine Moderationswarteschlange gesendet werden, wenn sie auf „Senden“ klicken, oder Benutzer mit niedriger Punktzahl können aufgefordert werden, einen mehrstufigen Authentifizierungsprozess abzuschließen, wenn sie versuchen, sich bei einem Konto anzumelden.
KI-basierte Authentifizierungsmethoden wie reCAPTCHA v3 versuchen, das Problem von Hackern zu umgehen. Indem sie interaktive Herausforderungen aus dem CAPTCHA-Verifizierungsprozess entfernen, verhindern sie, dass Hacker Daten aus zuvor gelösten Herausforderungen verwenden, um Bots darauf zu trainieren, neue CAPTCHAs zu knacken. Aus diesem Grund gehen Experten davon aus, dass KI-basierte CAPTCHAs in den nächsten fünf bis zehn Jahren zur Norm werden und herausforderungsbasierte CAPTCHAs vollständig ersetzen könnten.
Die CAPTCHA-Technologie wird häufig als Bot-Erkennungs- und Präventionsmaßnahme eingesetzt, darunter:
Verhinderung von Fake-Registrierungen
Indem sie Benutzern vor der Anmeldung für ein E-Mail-Konto, ein Social-Media-Profil oder andere Online-Dienste einen CAPTCHA-Test präsentieren, können Unternehmen Bots blockieren, die diese Dienste nutzen, um Spam oder Malware zu verbreiten oder böswillige Aktivitäten durchzuführen. Zu den ersten Anwendern von CAPTCHA gehörten Unternehmen wie Yahoo, Microsoft und AOL, die verhindern wollten, dass Bots gefälschte E-Mail-Konten registrieren.
Schutz vor verdächtigen Transaktionen
Unternehmen wie Ticketmaster haben CAPTCHA eingesetzt, um Bots daran zu hindern, begrenzte Waren, z. B. Konzertkarten, aufzukaufen und auf Sekundärmärkten weiterzuverkaufen.
Schutz der Integrität von Online-Umfragen
Bots können Online-Umfragen ohne Schutzmaßnahmen wie CAPTCHA manipulieren. Die Notwendigkeit, die Integrität von Online-Umfrageergebnissen zu schützen, war der Grund für einige der ersten Experimente mit CAPTCHA-ähnlicher Technologie. Um beispielsweise die Qualität seiner Online-Meinungsumfragen während der US-Präsidentschaftswahlen 1996 sicherzustellen, forderte die Digital Equipment Corporation die Benutzer auf, vor der Stimmabgabe ein verpixeltes Bild einer Flagge auf der Webseite zu suchen und anzuklicken.
Stoppen von Kommentar- und Produktbewertungs-Spam
Betrüger und Cyberkriminelle nutzen häufig die Kommentarbereiche von Blogs und Artikeln, um Betrugsversuche und Malware zu verbreiten. Sie könnten auch an Spam-Rezensionen beteiligt sein, bei denen sie eine große Anzahl gefälschter Rezensionen veröffentlichen, um die Platzierung eines Produkts auf einer E-Commerce-Website oder in einer Suchmaschine künstlich zu verbessern. Bots können auch ungeschützte Kommentarbereiche nutzen, um Belästigungskampagnen durchzuführen. Diese böswilligen Aktivitäten können eingedämmt werden, indem Benutzer aufgefordert werden, ein CAPTCHA auszufüllen, bevor sie einen Kommentar oder eine Bewertung posten.
Abwehr von Brute-Force- und Wörterbuchangriffen
Bei Brute-Force- und Wörterbuchangriffen brechen Hacker in ein Konto ein, indem sie Bots verwenden, um Kombinationen aus Zahlen, Buchstaben und Sonderzeichen zu erraten, bis sie das richtige Passwort gefunden haben. Diese Angriffe können gestoppt werden, indem Benutzer nach einer bestimmten Anzahl erfolgloser Anmeldeversuche aufgefordert werden, ein CAPTCHA auszufüllen.
Die CAPTCHA-Technologie hat sich zwar im Allgemeinen als wirksam erwiesen, um Bots zu stoppen, hat aber auch Nachteile, darunter:
Unangenehme Benutzererfahrungen
CAPTCHA-Herausforderungen fügen den Registrierungs-, Anmelde- und Formularausfüllprozessen einen zusätzlichen Schritt hinzu, den manche Menschen als lästig empfinden. Da die Komplexität von CAPTCHA erhöht wurde, um ausgefeiltere Bots zu überlisten, ist das Lösen von CAPTCHAs für Benutzer außerdem frustrierend geworden. In einer Studie aus dem Jahr 2010, in der Forscher der Stanford University Gruppen von drei Personen baten, dieselben CAPTCHAs zu lösen, einigten sich die Teilnehmer nur in 71 % der Fälle einstimmig auf die CAPTCHA-Lösung (Link befindet sich außerhalb von ibm.com). Die Studie ergab außerdem, dass es Nicht-Muttersprachlern schwerer fällt, CAPTCHAs zu lösen als Muttersprachlern, was darauf hindeutet, dass CAPTCHAs für einige demografische Gruppen eine größere Herausforderung darstellen könnten als für andere.
Herausforderungen bei der Barrierefreiheit
Text- und Bild-Captchas können für sehbehinderte Benutzer äußerst schwierig oder gar unlösbar sein. Dies wird durch die Tatsache erschwert, dass Screenreader die meisten CAPTCHA-Herausforderungen nicht lesen können, da diese Tests so konzipiert sind, dass sie für Maschinen unlesbar sind.
Alternative Formen von CAPTCHAs haben versucht, dieses Problem zu lösen, aber sie haben ihre eigenen Schwächen. Audio-CAPTCHAs, bei denen Benutzer verzerrte Audiodaten entschlüsseln müssen, sind bekanntermaßen schwer zu lösen. Die bereits erwähnte Stanford-Studie ergab, dass sich die Benutzer nur in 31 % der Fälle einstimmig auf Audio-CAPTCHA-Lösungen einigen.
MAPTCHA, eine Art CAPTCHA, bei dem Benutzer einfache mathematische Probleme lösen müssen, ist sehr anfällig dafür, von Algorithmen geknackt zu werden.
Die Verwendung unzugänglicher CAPTCHAs kann auch rechtliche Konsequenzen haben. Die 1998 eingeführte Änderung des Rehabilitation Act von 1973, Abschnitt 508, verpflichtet US-Bundesbehörden und ihre Partner aus dem Privatsektor, digitale Informationen für Menschen mit Behinderungen zugänglich zu machen. Unternehmen verstoßen möglicherweise gegen diese Anforderung, wenn sie keine barrierefreien CAPTCHA-Optionen anbieten.
Reduzierte Konversionsraten
Die unbequeme Benutzererfahrung und die Unzugänglichkeit von CAPTCHAs können sich negativ auf die Konversionsraten auswirken. In einer Fallstudie aus dem Jahr 2009, in der 50 Websites untersucht wurden, führte die Aufforderung an die Benutzer, ein CAPTCHA auszufüllen, zu einem Rückgang der legitimen Konversionen um 3,2 % (Link befindet sich außerhalb von ibm.com). Audio-CAPTCHAs können besonders nachteilig sein: Die bereits erwähnte Stanford-Studie ergab, dass Benutzer in 50 % der Fälle aufgeben, wenn es um das Lösen von tonbasierten CAPTCHAs geht.
Fähigkeit der Bot-KI, neue CAPTCHAs zu überwinden
Die CAPTCHA-Systeme haben sich seit der Einführung der Technologie so oft geändert, weil Bots sich ständig weiterentwickelt haben, um jede neue CAPTCHA-Herausforderung zu meistern. Die Struktur der CAPTCHA-Technologie trägt zu diesem Problem bei, da CAPTCHAs auf ungelösten KI-Problemen basieren, um Bots abzuwehren. Wenn Menschen CAPTCHA-Aufgaben lösen, generieren sie Datensätze, mit denen Algorithmen für maschinelles Lernen trainiert werden können, um diese bisher unlösbaren KI-Probleme zu bewältigen. Zum Beispiel nutzte der Computerwissenschaftler Jason Polakis 2016 die umgekehrte Bildersuche von Google, um die bildbasierten CAPTCHAS von Google mit 70 % Erfolgsquote zu lösen.
Datenschutzbedenken
Während neue Formen von CAPTCHA versuchen, Probleme der Barrierefreiheit zu lösen und das Wettrüsten der Bots durch die vollständige Beseitigung interaktiver Herausforderungen zu stoppen, empfinden einige Benutzer und Forscher KI-gesteuerte CAPTCHAs als invasiv. Es wurden Bedenken geäußert, wie reCAPTCHA v3 Codes und Cookies verwendet, um Benutzer über mehrere Websites hinweg zu verfolgen. Einige sind der Meinung, dass nicht ausreichend transparent ist, wie diese Tracking-Daten für Zwecke jenseits der Verifizierung verwendet werden könnten.
