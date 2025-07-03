Kann das Internet, wie wir es kennen, das Zeitalter der KI überleben? Cloudflare glaubt, dass es das kann, zumindest wenn es um den Schutz der Urheber von Inhalten geht. Der Technologieriese, der dabei hilft, den Traffic für 20 % des Internets zu verwalten und abzusichern, kündigte diese Woche an, dass er der erste Internetinfrastrukturanbieter sein wird, der KI-Crawler blockiert, die Websites ohne Vergütung oder Genehmigung scrapen.
Der Schritt, der von Mediengiganten wie The Atlantic, Fortune, TIME und The Associated Press sowie von Technologieunternehmen wie Pinterest und Reddit begrüßt wurde, ist der erste Schritt zum Aufbau eines Marktplatzes, der nach dem Prinzip „Bezahlung pro Crawl“ funktioniert, schrieb Cloudflare-Mitbegründer und CEO Matthew Prince.
„Cloudflare ändert, zusammen mit der Mehrheit der weltweit führenden Verlage und KI-Unternehmen, den Standardansatz, um KI-Crawler zu blockieren, es sei denn, sie bezahlen die Ersteller für ihre Inhalte“, schrieb er. „Diese Inhalte sind der Treibstoff, der KI-Engines antreibt, und deshalb ist es nur fair, dass die Urheber dieser Inhalte direkt dafür entlohnt werden.“
„Und das ist erst der Anfang. Als Nächstes arbeiten wir an einem Marktplatz, auf dem Content Creators und KI-Unternehmen, große und kleine, zusammenkommen können. Traffic war schon immer ein schlechter Indikator für den Wert. Wir denken, dass wir es besser machen können.“
Mit dem Aufstieg von generativer KI und KI-Suche, unterstützt durch Anthropic, OpenAI, Meta und Perplexity, erlebt das Web eine neue Art von Besuchern: Bot-Scrapers. Diese Entwicklung betrifft nicht nur Nachrichtenverlage, die auf Referral-Traffic angewiesen sind, um ihren Journalismus zu monetarisieren, sondern auch Content-Ersteller und große Technologieplattformen. In einem Fall reichte Reddit vor Kurzem eine Klage gegen Anthropic ein und behauptet, ihre Bots würden seinen Inhalt durchsuchen – was Anthropic bestreitet.
„Auch Technologieunternehmen sind von KI-Crawlern betroffen“, sagte Will Allen, Head of AI Control, Privacy & Media Products bei Cloudflare, in einem Interview mit IBM Think. „Pinterest, Quora und Reddit gehören zu den beliebtesten Tech-Websites für nutzergenerierte Inhalte, die sich zusammen mit Unternehmen aus dem KI-Bereich wie ProRata KI und Hyperscience unserem auf Einwilligung basierenden Ansatz für KI-Crawler angeschlossen haben.“
Bots werden für das Training verwendet, aber auch für Retrieval-Augmented Generation (RAG), das generative KI-Modelle mit externen Wissensdatenbanken wie öffentlich zugänglichen Inhalten im Internet verbindet. Laut einem im vergangenen Monat veröffentlichten Bericht vom Technologieunternehmen TollBit stieg der Datenverkehr von RAG-Bots auf den Websites ihrer Partner um 49 %, was fast dem 2,5-Fachen der Wachstumsrate des Datenverkehrs von Trainingsbots mit 18 % entspricht. TollBit stellte fest, dass von den zwölf am häufigsten von Bots gecrawlten Websites ChatGPT, Meta und Perplexity im ersten Quartal 2025 am aktivsten waren und zusammen etwa 70 % der durchschnittlichen monatlichen Scrapes des KI-Bots ausmachten.
Dieser neue Datenverkehr belastet die Server und treibt die Kosten für die Publisher-Infrastruktur in die Höhe. Im April stellte Wikimedia, die gemeinnützige Organisation hinter Wikipedia, fest, dass 65 % des teuersten Traffics von Bots stammten. „Unsere Inhalte sind kostenlos, unsere Infrastruktur nicht“, sagte die Organisation in einem Blogbeitrag.
Die datenhungrigen Bots haben auch die Klickrate auf der Suchmaschinenergebnisseite, kurz SERP, beeinflusst, die in den letzten Monaten stark gesunken ist. Nehmen wir „Übersicht mit KI“ von Google: Eine aktuelle Studie des Marketingunternehmens Ahrefs zeigt, dass „Übersicht mit KI“ – ein Produkt, das der Suchgigant im vergangenen Mai für alle Nutzer eingeführt hat – die Zahl der Klicks um 34,5% reduziert hat. Während die Zahl der KI-Übersichten weiter steigt – um 116 % seit letztem März –, leiden die in den Suchergebnissen angezeigten Seiten darunter.
„Das bedeutet, dass Besucher diese Werbung nicht sehen werden, wenn Sie mit Abonnements, Werbung, [durch] all die Dinge, die Inhaltsersteller heute tun, Geld verdienen“, sagte Prince von Cloudflare kürzlich in einem Interview auf CNBC. „Sie werden diese Abonnements nicht mehr kaufen. Und das bedeutet, dass es für Sie viel, viel schwieriger werden wird, Inhalte zu erstellen.“
Aber nicht alle Bots sind gleich: Mit dem Aufstieg von KI-Crawling-Bots geht auch ein Anstieg von gutmeinenden – und unbekannten – Bots einher.
Miso Technologies Mitbegründer und CEO Lucky Gunasekara leitet Project Sentinel, das mehr als 8.300 Seiten führender Verlage weltweit aus den Bereichen Nachrichten und Wissenschaft überwacht, darunter Newsweek, The Guardian, USA Today und BBC. Laut den für das Projekt gesammelten Zahlen gibt es mehr als 1.700 Bots auf dem Radar von 7.000 Publishern, wie Gunasekara mit IBM Think teilte. Diese Zahl ist seit Februar um 35 % gestiegen, während die meisten Publisher nur 17 Bots ins Visier nehmen.
„Wir sprechen mit vielen Verlagen, und die Frage ist, wie wir wissen können, dass das funktioniert, wenn es um kleine, unlautere Akteure geht“, sagte er in einem Interview. Unter den größten Bots, die er beobachtete, fand er mehrere, die nicht mit einem großen KI-Unternehmen in Verbindung gebracht werden können. „Was machen wir, wenn ein Angreifer 100.000 IP-Adressen gekauft hat, die nur aus Bots bestehen?“, fragte er.
Allen unterscheidet außerdem zwischen „wohlmeinenden Betreibern von Crawlern, Bots und Agenten“, die eine klare Möglichkeit suchen, ihre Bots gegenüber Website-Betreibern zu identifizieren, und böswilligen Akteuren. „Unsere Vorschläge und unsere Unterstützung für WebAuthn [Webauthentifizierung] stoßen weiterhin auf große Zustimmung und Zusammenarbeit im gesamten Technologie-Ökosystem“, sagte er.
„Wenn böswillige Akteure versuchen, Websites in großem Maßstab zu durchforsten, verwenden sie in der Regel Tools und Frameworks, deren Fingerabdruck wir erkennen können. „Wir nutzen das Netzwerk von Cloudflare mit durchschnittlich über 57 Millionen Anfragen pro Sekunde, um zu verstehen, wie sehr wir dem Fingerabdruck vertrauen sollten“, fügte er hinzu. „Wir berechnen globale Aggregatwerte über viele Signale hinweg, und auf der Grundlage dieser Signale sind unsere Modelle in der Lage, den Datenverkehr von schwer erkennbaren KI-Bots konsistent und angemessen zu kennzeichnen.“
Cloudflare ist nicht das erste Unternehmen, das versucht, im Namen von Content-Erstellern zu „verhandeln“: Im vergangenen Jahr sind Unternehmen wie ScalePost und TollBit entstanden, die Lösungen für Verlage anbieten, um Daten für KI-Unternehmen zu überwachen, zu verkaufen oder zu monetarisieren.
Aber der beneidenswerte Markt von Cloudflare könnte diesem Schritt noch mehr Bedeutung verleihen.
„Wenn man eine Gruppe beschreiben sollte, die am besten aufgestellt ist, dann wäre es Cloudflare“, sagte Gunasekara.
„Es ist wichtig, dass wir hier einen der ersten großen Schritte der Verlage erleben, die sich gegen die großen Konzerne zur Wehr setzen. Das Schwierige ist, dass wir nicht wissen, ob die KI-Unternehmen das umgehen werden“, so Lily Ray, SEO-Expertin und VP bei Amsive, in einem Interview mit IBM Think. Viele Content Creator verstehen die Tragweite der standardmäßigen Blockierung möglicherweise nicht – schließlich möchte nicht jeder aus der KI-Suche verschwinden. „Für Websites, die die Tragweite nicht verstehen, ist das ein bisschen gefährlich“, sagte sie.
Laut Cloudflare haben Verlage die Möglichkeit, Crawlern den Zugriff auf ihre Inhalte zu Schulungs-, Such- oder Inferenzzwecken zu ermöglichen. Bestehende Kunden können KI-Crawler jederzeit mit einem einzigen Klick in ihrem Cloudflare-Dashboard blockieren.
„Kunden können Cloudflare eine robots.txt-Datei erstellen und verwalten lassen, die die entsprechenden Einträge enthält, um Crawlern mitzuteilen, dass sie nicht auf ihre Website für das KI-Training zugreifen sollen“, erklärte Allen. „Kunden können sich dafür entscheiden, KI-Bots nur auf Teilen ihrer Websites zu blockieren, die durch Werbung monetarisiert werden.“
Die Frage der Regulierung des Austauschs zwischen KI-Unternehmen und Verlagen könnte jetzt viel Aufmerksamkeit erregen, wenn neue KI-Labore entstehen und Investitionen fließen. Neu ist sie jedoch nicht, wie Eric Goldman, Professor für Rechtswissenschaften an der Santa Clara University School of Law im Silicon Valley, anmerkt, der das „Infomediary“-Modell in den Neunzigern studierte, als das Internet erfunden wurde.
„Die Technologie mag anders sein oder sich weiterentwickelt haben, aber worüber wir heute sprechen, ist nicht neu“, sagte er gegenüber IBM Think.
„Dieses Thema wird seit Jahrzehnten diskutiert, und bisher ist es noch niemandem gelungen, ein Infomediator-Modell erfolgreich zu entwickeln, obwohl in den 1990er Jahren Milliarden von Dollar an leicht verdientem Geld in die Lösung dieses Problems investiert wurden. Cloudflare hat das Geschäftsmodell also möglicherweise geknackt – sie könnten es zum Laufen bringen, aber ihre bisherige Erfolgsbilanz in diesem Bereich ist nicht gerade berauschend.“
Letztes Jahr veröffentlichte Goldman „Generative AI is Doomed“., eine Abhandlung zu diesem Thema. Seiner Ansicht nach werden die vorherrschenden regulatorischen und rechtlichen Reaktionen auf generative KI ihre Nutzen einschränken oder sogar aufheben.
Die Geschäftswelt muss noch durch die Ergebnisse verschiedener Klagen von Autoren und Verlegern gegen große KI-Unternehmen in den USA und auf der ganzen Welt geprägt werden. „Bislang haben wir Grund zu der Annahme, dass die Standardregel lautet, dass das Trainieren eines generativen KI-Modells mit urheberrechtlich geschützten Werken keine Urheberrechtsverletzung darstellt, aber diese Fragen werden alle in der Berufung verhandelt werden“, sagte Goldman. „Bis wir Berufungsentscheidungen erhalten, sind das nur frühe Datenpunkte.“
