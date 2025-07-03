我们所知的互联网，能否在 AI 时代存续？Cloudflare 认为答案是肯定的，至少在保护内容创作者方面可以。这家技术巨头为 20% 的全球网络流量提供管理和安全保障，本周宣布将成为首家阻止非法 AI 爬虫的互联网基础设施提供商：这类爬虫会在未经许可且不支付报酬的情况下，抓取网站内容。
Cloudflare 联合创始人兼 CEO Matthew Prince 写道，此举受到了《大西洋月刊》(The Atlantic)、《财富》(Fortune)、《时代》(TIME)、美联社(The Associated Press) 等媒体巨头，以及 Pinterest、Reddit 等科技公司的欢迎，是迈向建立“按抓取付费”市场的第一步。
“Cloudflare 正与全球大多数领先出版商和 AI 公司合作，调整默认设置以阻止 AI 爬虫 —— 除非它们向内容创作者支付报酬，” 他写道。“这些内容是驱动 AI 引擎的核心燃料，因此让创作者直接获得补偿，才是公平之举。”
“而这仅仅是开始。接下来，我们将打造一个市场平台，让内容创作者与 AI 公司（无论规模大小）都能汇聚一堂。流量向来不能代表价值。我们相信我们还能做得更好。”
随着 Anthropic、OpenAI、Meta、Perplexity 等公司支持的生成式 AI 和 AI 搜索兴起，网络上出现了一种新型访客：爬虫机器人。这一转变不仅影响依赖推荐流量变现新闻业务的新闻出版商，也波及内容创作者和大型科技平台。例如，Reddit 近期对 Anthropic 提起诉讼，声称其爬虫机器人在抓取自身内容——Anthropic 对此予以否认。
“科技公司同样会受到 AI 爬虫的影响，”Cloudflare AI 控制、隐私及媒体产品主管 Will Allen 在接受 IBM Think 采访时表示。“Pinterest、Quora、Reddit 等最受欢迎的用户生成内容平台已加入支持我们这套基于权限的 AI 爬虫管理方案，ProRata AI、Hyperscience 等 AI 领域企业也纷纷响应。”
机器人可用于模型训练，也可应用于检索增强生成 (RAG) 技术，该技术能将生成式 AI 模型与外部知识库相连，例如互联网上的公开内容。根据科技公司 TollBit 上月发布的报告，其合作伙伴网站上的 RAG 机器人流量增长了 49%，几乎是训练机器人流量 (18%) 的 2.5 倍。在排名前 12 的网站抓取机器人中，TollBit 发现 2025 年第一季度最活跃的是 ChatGPT、Meta 和 Perplexity，三者合计约占 AI 机器人月平均抓取量的 70%。
这类新增流量给服务器带来负担，导致出版商的基础设施成本持续上升。今年 4 月，维基百科的运营方、非营利组织 Wikimedia 指出，其成本最高的流量中 65% 来自机器人。该组织在一篇博客文章中表示：“我们的内容是免费的，但基础设施并非如此。”
这些渴求数据的机器人还影响了搜索引擎结果页面 (SERP) 的点击率，近几个月来该指标大幅下滑。以 Google 的 AI Overviews 为例：营销公司 Ahrefs 近期的研究显示，这家搜索巨头去年 5 月向所有用户推出的这一功能，导致相关网站的点击量下降了 34.5%。尽管 AI Overviews 的使用量持续增长（自去年 3 月以来增幅达 116%），但 SERP 上展示的网站却受到了冲击。
“这意味着，如果您依靠订阅、广告或其他内容创作者常用的变现方式盈利，访问者将无法看到这些广告，”Cloudflare 的联合创始人兼首席执行官 Matthew Prince 在最近接受 CNBC 采访时表示。“他们也不会再购买这类订阅服务。这会让成为内容创作者的难度大大增加。”
但并非所有机器人都性质相同：随着 AI 抓取机器人的兴起，善意机器人和未知机器人的数量也在增多。
Miso Technologies 联合创始人兼首席执行官 Lucky Gunasekara 主导了 “哨兵计划”（Project Sentinel），该计划监控着全球新闻和学术领域领先出版商的 8300 多个网站，包括 《新闻周刊》（Newsweek）、《卫报》（The Guardian）、USA Today 和 BBC。Gunasekara 向 IBM Think 透露，根据该项目收集的数据，7000 家出版商监测到的机器人数量超过 1700 个。自 2 月以来，这一数字增长了 35%，而大多数出版商仅针对 17 个机器人制定了防御策略。
“我们与许多出版商交流过，核心问题在于，面对规模较小的恶意行为者时，我们如何判断现有防御方式是否有效，” 他在采访中表示。在他监控的大型机器人中，发现有多个无法追溯到主流 AI 公司。“如果某个恶意行为者购买了 10 万个 IP 地址，而这些地址背后全是机器人，我们该如何应对？” 他问道。
Allen 还区分了“善意的爬虫、机器人及智能体操作者”——他们希望通过清晰的方式向网站所有者表明自身机器人的身份，以区别于恶意行为者。“我们关于 WebAuthn（网络身份验证）的提案和支持，在整个科技生态系统中持续获得大量支持与协作，” 他表示。
“当恶意行为者试图规模化抓取网站时，他们通常会使用我们能够识别其特征的工具和框架。我们利用 Cloudflare 平均每秒超过 5700 万个请求的网络数据，来评估对这些工具特征的信任度，” 他补充道。“我们会计算多个信号的全球聚合值，基于这些信号，我们的模型能够持续、准确地标记出规避检测的 AI 机器人流量。”
Cloudflare 并非首家尝试为内容创作者争取权益的公司。过去一年中，ScalePost、TollBit 等公司相继涌现，它们为出版商推出了解决方案，可帮助其对面向 AI 公司的数据进行监控、出售或变现。
但 Cloudflare 极具优势的市场地位，可能使其举措产生更大影响力。
“如果要论最具优势的参与者，那无疑是 Cloudflare，”Gunasekara 表示。
“重要的是，我们看到出版商已迈出了勇敢对抗这些公司的重要一步。但棘手的是，我们不确定 AI 公司是否会设法规避这些限制。”SEO 专家、Amsive 副总裁 Lily Ray 在接受 IBM Think 采访时说道。许多内容创作者可能未必理解默认屏蔽机器人的潜在影响。毕竟，并非所有人都希望从 AI 搜索结果中消失。“对于不了解其潜在影响的网站而言，这种做法存在一定风险，” 她表示。
Cloudflare 称，出版商可自主选择是否允许爬虫访问其内容，用于训练、搜索或推理场景。现有客户可随时通过 Cloudflare 仪表板，一键屏蔽 AI 爬虫。
“客户可让 Cloudflare 创建并管理 robots.txt 文件，该文件会添加相应条目，告知爬虫不得为 AI 训练目的访问其网站，”Allen 解释道。“客户也可选择仅在网站靠广告变现的板块屏蔽 AI 机器人。”
随着新的 AI 实验室不断涌现、投资持续流入，AI 公司与出版商之间数据交互的监管问题如今可能会受到广泛关注。但硅谷圣克拉拉大学法学院法学教授 Eric Goldman 指出，这并非新问题——他在互联网诞生的 20 世纪 90 年代，就曾研究过“信息中介”模式。
“技术可能有所不同或不断演进，但我们如今讨论的核心问题并不新鲜，” 他告诉 IBM Think。
“这个问题已经讨论了数十年，尽管 20 世纪 90 年代有巨额资金投入这一领域，但至今仍未有人成功构建出可行的信息中介模式。因此，Cloudflare 或许已经找到了突破口，也有可能成功落地，但该领域的历史记录并不理想。”因此 Cloudflare 可能破解了这个模型技术人员也许能做到这一点，但这一领域的历史记录并不好。”
Eric Goldman 去年发表了一篇相关主题的论文《生成式 AI 注定失败》。他认为，针对生成式 AI 的现行监管和法律措施，将限制甚至抵消其优势。
法律环境的最终走向，仍取决于美国及全球各地作者和出版商对主流 AI 公司发起的多起诉讼结果。“到目前为止，我们有理由认为默认规则是：使用受版权保护的作品训练生成式 AI 模型并不构成侵权，但这些案件均会进入上诉程序，”Eric Goldman 表示。“在我们获得上诉裁决之前，这些都只是早期案例参考。”
