教程:配置 RobotsTxt 文件

您可控制 Web 访问机器人的访问权。 您可配置位于 Web 服务器上的 robots.txt 文件(通常位于根目录级别)以控制访问。 Web 机器人即是一些程序,它们在 Web 中进行搜寻来获取所有被访问站点的 Web 内容,并提供索引来提高搜索引擎的性能。 您还可以为不同机器人指定不同规则。

为何需要编辑 Drupal 已有的 robots.txt 文件?

恶意机器人可能选择不遵循 robots.txt 文件,并通过编辑此文件来将您不希望他人看到的站点广而告之。 因此,不应使用此文件来隐藏敏感数据。 但是,编辑 robots.txt 文件可实现以下目的:

  • 防止在您的站点上标识重复信息
  • 防止在搜索引擎中显示内部页面
  • 防止在搜索引擎中显示私有页面
  • 防止抓取特定图像、文件等
  • 指定 crawl-delay 属性来防止机器人在装入时重载服务器
  • 排除特定机器人

准备工作

您必须已启用 开发者门户网站 ,并且必须具有管理员访问权才能完成本教程。

关于本教程

您将编辑已有的 robots.txt 文件,并排除 BadBot 访问机器人的访问权。

  1. 以管理员身份登录到 Developer Portal
  2. 导航至 "配置 > 搜索和元数据 > RobotsTxt

    RobotsTxt页面

  3. 在 "Contents of robots.txt部分,输入排除访问名为BadBot 的机器人的策略。
    User-agent: BadBot
    Disallow: /
  4. 单击 "保存配置"保存更改。

您在本教程中执行的操作

现在,您已成功定制 robots.txt 文件。 机器人现在使用这个已更新的文件来确定在站点上执行搜寻的位置范围。 已排除对 BadBot 机器人的访问。

您可以通过浏览到站点并追加 /robots.txt来检查 robots.txt 文件是否已成功更改。 您应该会看到您在该文件中输入的内容。

显示结果

有关如何编辑robots.txt文件的更多信息,请参阅https://www.robotstxt.org/

下一步操作

您可随时在配置设置中重新浏览至该页面来编辑 robots.txt。 您可选择在自己的所有站点之间复制此文件,或者针对不同站点选择不同策略。