教程:配置 RobotsTxt 文件
您可控制 Web 访问机器人的访问权。 您可配置位于 Web 服务器上的 robots.txt
文件(通常位于根目录级别)以控制访问。 Web 机器人即是一些程序,它们在 Web 中进行搜寻来获取所有被访问站点的 Web 内容,并提供索引来提高搜索引擎的性能。 您还可以为不同机器人指定不同规则。
为何需要编辑 Drupal 已有的 robots.txt 文件?
恶意机器人可能选择不遵循 robots.txt
文件,并通过编辑此文件来将您不希望他人看到的站点广而告之。 因此,不应使用此文件来隐藏敏感数据。 但是,编辑 robots.txt
文件可实现以下目的:
- 防止在您的站点上标识重复信息
- 防止在搜索引擎中显示内部页面
- 防止在搜索引擎中显示私有页面
- 防止抓取特定图像、文件等
- 指定
crawl-delay
属性来防止机器人在装入时重载服务器 - 排除特定机器人
准备工作
您必须已启用 开发者门户网站 ,并且必须具有管理员访问权才能完成本教程。关于本教程
您将编辑已有的 robots.txt
文件,并排除 BadBot 访问机器人的访问权。
- 以管理员身份登录到 Developer Portal 。
- 导航至 "
- 在 "
Contents of robots.txt
部分,输入排除访问名为BadBot 的机器人的策略。User-agent: BadBot Disallow: /
- 单击 "保存配置"保存更改。
您在本教程中执行的操作
现在,您已成功定制 robots.txt
文件。 机器人现在使用这个已更新的文件来确定在站点上执行搜寻的位置范围。 已排除对 BadBot 机器人的访问。
您可以通过浏览到站点并追加 /robots.txt来检查 robots.txt
文件是否已成功更改。 您应该会看到您在该文件中输入的内容。
有关如何编辑robots.txt
文件的更多信息,请参阅https://www.robotstxt.org/
下一步操作
您可随时在配置设置中重新浏览至该页面来编辑 robots.txt
。 您可选择在自己的所有站点之间复制此文件,或者针对不同站点选择不同策略。