Internet tel que nous le connaissons peut-il survivre à l’ère de l’IA ? Cloudflare pense que oui, du moins en ce qui concerne la protection des créateurs de contenu. Le géant technologique, qui aide à gérer et à sécuriser le trafic de 20 % du Web, a annoncé cette semaine qu’il serait le premier fournisseur d’infrastructure Internet à bloquer les robots d’indexation d’IA qui récupèrent du contenu sur des sites sans compensation ni autorisation.
Cette initiative, saluée par des géants des médias tels que The Atlantic, Fortune, TIME et The Associated Press, ainsi que par des entreprises technologiques telles que Pinterest et Reddit, est la première étape vers la création d’un marché « pay-per-crawl », a écrit Matthew Prince, cofondateur et PDG de Cloudflare.
« Cloudflare, en collaboration avec la majorité des principaux éditeurs et entreprises d’IA au monde, modifie le paramètre par défaut afin de bloquer les robots d’indexation d’IA à moins qu’ils ne rémunèrent les créateurs pour leur contenu, a-t-il écrit. Ce contenu est le carburant qui alimente les moteurs d’IA ; il est donc normal que les créateurs de contenu soient directement rémunérés pour celui-ci. »
« Mais ce n’est qu’un début. Ensuite, nous travaillerons à la création d’un marché où les créateurs de contenu et les entreprises d’IA, grandes et petites, pourront se rencontrer. Le trafic a toujours été un mauvais indicateur de la valeur. Nous pensons pouvoir faire mieux. »
Avec l’essor de l’IA générative et de la recherche par IA alimentée par Anthropic, OpenAI, Meta et Perplexity, le Web voit apparaître un nouveau type de visiteurs : les bots d’extraction. Ce changement affecte non seulement les éditeurs de presse, qui dépendent du trafic de référence pour monétiser leur journalisme, mais aussi les créateurs de contenu et les grandes plateformes technologiques. Dans un cas précis, Reddit a récemment intenté un procès contre Anthropic et affirme que ses bots d’extraction récupèrent son contenu, ce qu’Anthropic nie.
« Les entreprises technologiques sont également touchées par les robots d’indexation d’IA », a déclaré Will Allen, responsable du contrôle IA, de la confidentialité et des produits médias chez Cloudflare, dans une interview accordée à IBM Think. « Pinterest, Quora et Reddit font partie des sites technologiques de contenu généré par les utilisateurs les plus populaires qui ont adhéré à notre approche basée sur l’autorisation pour les robots d’indexation d’IA, aux côtés d’entreprises du secteur de l’IA telles que ProRata AI et Hyperscience. »
Les bots sont utilisés pour l’entraînement, mais aussi pour la génération augmentée de récupération (RAG), qui relie les modèles d’IA générative à des bases de connaissances externes, telles que les contenus accessibles au public sur Internet. Selon un rapport publié le mois dernier par la société technologique TollBit, le trafic des bots RAG observé sur les sites de ses partenaires a augmenté de 49 %, soit près de 2,5 fois le taux de trafic des bots d’entraînement, qui est de 18 %. Parmi les 12 principaux bots qui explorent les sites Web, TollBit a constaté qu’au premier trimestre 2025, ChatGPT, Meta et Perplexity étaient les plus actifs, représentant au total environ 70 % des extractions mensuelles moyennes effectuées par les bots d’IA.
Ce nouveau trafic pèse sur les serveurs et entraîne une augmentation des coûts pour l’infrastructure des éditeurs. En avril, Wikimedia, l’organisation à but non lucratif à l’origine de Wikipédia, a remarqué que 65 % de son trafic le plus coûteux provenait de bots. « Notre contenu est gratuit, mais notre infrastructure ne l’est pas », a déclaré l’organisation dans un article de blog.
Les bots avides de données ont également eu un impact sur les taux de clics sur la page de résultats des moteurs de recherche (SERP), qui ont fortement baissé ces derniers mois. Prenons l’exemple d’AI Overviews de Google : une étude récente menée par la société de marketing Ahrefs montre que ce lancé par le géant de la recherche à tous les utilisateurs en mai dernier a réduit les clics de 34,5 %. Alors qu’AI Overviews continue de croître (de 116 % depuis mars dernier), les sites proposés sur la SERP en pâtissent.
« Cela signifie que si vous gagnez de l’argent grâce aux abonnements, à la publicité ou à toute autre activité exercée aujourd’hui par les créateurs de contenu, les visiteurs ne verront plus ces publicités, a déclaré M. Prince de Cloudflare lors d’une récente interview sur CNBC. « Ils n’achèteront plus ces abonnements. Et cela signifie qu’il sera beaucoup plus difficile pour vous d’être un créateur de contenu. »
Mais tous les robots ne sont pas égaux : l’essor des bots d’indexation basés sur l’IA s’accompagne également d’une augmentation du nombre de robots bien intentionnés, mais aussi de robots inconnus.
Lucky Gunasekara, cofondateur et PDG de Miso Technologies, dirige le projet Sentinel, qui surveille plus de 8 300 sites appartenant à des éditeurs de premier plan dans le monde entier, dans les domaines de l’information et de l’enseignement supérieur, notamment Newsweek, The Guardian, USA Today et la BBC. Selon les chiffres recueillis pour le projet, plus de 1 700 bots sont surveillés par 7 000 éditeurs, a déclaré M. Gunasekara à IBM Think. Ce chiffre a augmenté de 35 % depuis février, alors que la plupart des éditeurs ne ciblent que 17 bots.
« Nous discutons avec de nombreux éditeurs, et la question est de savoir comment nous pouvons être sûrs que cela fonctionne lorsqu’il s’agit de petits acteurs malveillants », a-t-il déclaré lors d’une interview. Parmi les plus gros bots qu’il a surveillés, il en a trouvé plusieurs qui ne peuvent être liés à aucune grande entreprise d’IA. « Que faire lorsqu’un acteur malveillant achète 100 000 adresses IP qui ne sont qu’un tas de bots ? », a-t-il demandé.
Allen distingue également les « opérateurs bien intentionnés de robots d’indexation, de bots et d’agents », qui souhaitent disposer d’un moyen clair d’identifier leurs bots auprès des propriétaires de sites, des acteurs malveillants. « Nos propositions et notre soutien à l’[authentification Web] WebAuthn continuent de bénéficier d’un large soutien et d’une grande collaboration au sein de l’écosystème technologique », a-t-il déclaré.
« Lorsque des acteurs malveillants tentent d’indexer des sites à grande échelle, ils utilisent généralement des outils et des cadres que nous sommes en mesure d’identifier. Nous utilisons le réseau Cloudflare, qui traite en moyenne plus de 57 millions de requêtes par seconde, pour déterminer dans quelle mesure nous pouvons nous fier à ces empreintes, a-t-il ajouté. Nous calculons des agrégats globaux à partir de nombreux signaux ; sur la base de ces signaux, nos modèles sont capables de signaler de manière cohérente et adaptée le trafic provenant de bots d’IA évasifs. »
Cloudflare n’est pas la première entreprise à tenter de « négocier » au nom des créateurs de contenu. L’année dernière, des entreprises telles que ScalePost et TollBit ont vu le jour et ont proposé des solutions aux éditeurs pour surveiller, vendre ou monétiser les données pour les entreprises d’IA.
Mais le marché enviable de Cloudflare pourrait rendre son initiative plus percutante.
« Si l’on devait décrire le groupe le mieux placé, ce serait Cloudflare », a déclaré M. Gunasekara.
« Il est important que nous assistions à l’une des premières grandes étapes de la résistance des éditeurs face aux entreprises. La difficulté réside dans le fait que nous ne savons pas si les entreprises d’IA contourneront cette mesure », a déclaré Lily Ray, experte en référencement et vice-présidente d’Amsive, dans une interview accordée à IBM Think. De nombreux créateurs de contenu ne saisissent pas nécessairement l’impact du blocage par défaut. Après tout, tout le monde ne souhaite pas disparaître des résultats de recherche par IA. « C’est un peu dangereux pour les sites qui ne comprennent pas les implications », a-t-elle déclaré.
Cloudflare indique que les éditeurs ont la possibilité d’autoriser les robots d’indexation à accéder à leur contenu à des fins d’entraînement, de recherche ou d’inférence. Les clients existants peuvent bloquer les robots d’indexation d’IA à tout moment d’un simple clic dans leur tableau de bord Cloudflare.
« Les clients peuvent laisser Cloudflare créer et gérer un fichier robots.txt, qui crée les entrées appropriées pour indiquer aux robots d’indexation de ne pas accéder à leur site à des fins d’entraînement de l’IA, a expliqué M. Allen. Les clients peuvent choisir de bloquer les bots d’IA uniquement sur les parties de leurs sites qui sont monétisées par la publicité. »
La question de la réglementation des échanges entre les entreprises d’IA et les éditeurs pourrait faire l’objet d’une large couverture médiatique à l’heure où de nouveaux laboratoires d’IA voient le jour et où les investissements affluent. Mais elle n’est pas nouvelle, observe Eric Goldman, professeur de droit à la faculté de droit de l’université de Santa Clara, dans la Silicon Valley, qui a étudié le modèle « infomédiaire » dans les années 90, lors de la création d’Internet.
« La technologie a peut-être changé ou évolué, mais ce dont nous parlons aujourd’hui n’est pas nouveau », a-t-il déclaré à IBM Think.
« Cette question fait l’objet de discussions depuis des décennies, et personne n’a encore réussi à mettre en place un modèle infomédiaire, bien que des milliards de dollars aient été investis dans ce domaine dans les années 1990. Cloudflare a peut-être trouvé la solution, et sera peut-être en mesure de la mettre en œuvre, mais les antécédents dans ce domaine ne sont pas très encourageants. »
M. Goldman a publié l’année dernière un article sur le sujet intitulé « Generative AI is Doomed » (L’IA générative est vouée à l’échec). Selon lui, les réponses réglementaires et juridiques qui prévalent actuellement à l’égard de l’IA générative limiteront, voire annuleront ses avantages.
Le paysage juridique doit encore être façonné par les résultats de diverses poursuites judiciaires intentées par des auteurs et des éditeurs contre de grandes entreprises d’IA aux États-Unis et dans le monde entier. « Jusqu’à présent, nous avons des raisons de croire que la règle par défaut est que l’entraînement d’un modèle d’IA générative sur des œuvres protégées par le droit d’auteur ne constitue pas une violation, mais toutes ces questions vont faire l’objet d’un appel, a déclaré M. Goldman. Tant que nous n’aurons pas obtenu de décisions en appel, il ne s’agit que de données préliminaires. »
