Avec l’essor de l’IA générative et de la recherche par IA alimentée par Anthropic, OpenAI, Meta et Perplexity, le Web voit apparaître un nouveau type de visiteurs : les bots d’extraction. Ce changement affecte non seulement les éditeurs de presse, qui dépendent du trafic de référence pour monétiser leur journalisme, mais aussi les créateurs de contenu et les grandes plateformes technologiques. Dans un cas précis, Reddit a récemment intenté un procès contre Anthropic et affirme que ses bots d’extraction récupèrent son contenu, ce qu’Anthropic nie.

« Les entreprises technologiques sont également touchées par les robots d’indexation d’IA », a déclaré Will Allen, responsable du contrôle IA, de la confidentialité et des produits médias chez Cloudflare, dans une interview accordée à IBM Think. « Pinterest, Quora et Reddit font partie des sites technologiques de contenu généré par les utilisateurs les plus populaires qui ont adhéré à notre approche basée sur l’autorisation pour les robots d’indexation d’IA, aux côtés d’entreprises du secteur de l’IA telles que ProRata AI et Hyperscience. »

Les bots sont utilisés pour l’entraînement, mais aussi pour la génération augmentée de récupération (RAG), qui relie les modèles d’IA générative à des bases de connaissances externes, telles que les contenus accessibles au public sur Internet. Selon un rapport publié le mois dernier par la société technologique TollBit, le trafic des bots RAG observé sur les sites de ses partenaires a augmenté de 49 %, soit près de 2,5 fois le taux de trafic des bots d’entraînement, qui est de 18 %. Parmi les 12 principaux bots qui explorent les sites Web, TollBit a constaté qu’au premier trimestre 2025, ChatGPT, Meta et Perplexity étaient les plus actifs, représentant au total environ 70 % des extractions mensuelles moyennes effectuées par les bots d’IA.

Ce nouveau trafic pèse sur les serveurs et entraîne une augmentation des coûts pour l’infrastructure des éditeurs. En avril, Wikimedia, l’organisation à but non lucratif à l’origine de Wikipédia, a remarqué que 65 % de son trafic le plus coûteux provenait de bots. « Notre contenu est gratuit, mais notre infrastructure ne l’est pas », a déclaré l’organisation dans un article de blog.

Les bots avides de données ont également eu un impact sur les taux de clics sur la page de résultats des moteurs de recherche (SERP), qui ont fortement baissé ces derniers mois. Prenons l’exemple d’AI Overviews de Google : une étude récente menée par la société de marketing Ahrefs montre que ce lancé par le géant de la recherche à tous les utilisateurs en mai dernier a réduit les clics de 34,5 %. Alors qu’AI Overviews continue de croître (de 116 % depuis mars dernier), les sites proposés sur la SERP en pâtissent.

« Cela signifie que si vous gagnez de l’argent grâce aux abonnements, à la publicité ou à toute autre activité exercée aujourd’hui par les créateurs de contenu, les visiteurs ne verront plus ces publicités, a déclaré M. Prince de Cloudflare lors d’une récente interview sur CNBC. « Ils n’achèteront plus ces abonnements. Et cela signifie qu’il sera beaucoup plus difficile pour vous d’être un créateur de contenu. »