チュートリアル: RobotsTxt ファイルの構成
Web ロボットによるアクセスを制御できます。 Web サーバー上に存在する (通常はルート・レベルにある) robots.txt
ファイルを構成して、アクセスを制御できます。 Web ロボットは、Web をクロールして、アクセスされたすべてのサイトの Web コンテンツを取得するプログラムです。Web ロボットは、検索エンジンのパフォーマンスを向上させるために、インデックス付けを提供します。 ロボットごとに別個のルールを指定することもできます。
なぜ、 Drupal 'の既存の robots.txt ファイルを編集したいのですか?
悪意のあるロボットは、 robots.txt
ファイルを尊重しないことを選択するかもしれません。このファイルを編集することで、他の人に見られたくないサイトを発信することになります。 したがって、機密データを隠すためにこのファイルを使用しないでください。 代わりに、以下の目的で robots.txt
ファイルを編集できます。
- 重複する情報がサイト上で識別されることを防止します。
- 内部ページが検索エンジンに表示されることを防止します。
- プライベート・ページが検索エンジンに表示されることを防止します。
- 特定の画像やファイルなどがクロールされないようにする
crawl-delay
属性を指定して、ロード時にロボットによってサーバーで過負荷が発生することを防止します。- 特定のロボットを除外します。
開始前に
このチュートリアルを完了するには、 開発者ポータル を有効にして、管理者権限を持っている必要があります。このチュートリアルについて
既存の robots.txt
ファイルを編集し、BadBot という名前のロボットによるアクセスを除外します。
- 開発者ポータル に管理者としてログインします。
Contents of robots.txt
セクションに、BadBotというロボットへのアクセスを除外するポリシーを入力する。User-agent: BadBot Disallow: /
- 「構成の保存 (Save configuration)」をクリックして、変更を保存します。
このチュートリアルで実行したこと
robots.txt
ファイルのカスタマイズに成功。 ロボットは、この更新済みファイルを使用して、サイト上でクロールできる場所を決定できるようになりました。 BadBot は、アクセス可能なロボットから除外されました。
robots.txt
ファイルが正常に変更されたかどうかを確認するには、サイトにナビゲートして /robots.txtを追加します。 これで、そのファイルに入力した内容を見ることができる。
robots.txt
ファイルの編集方法については、https://www.robotstxt.org/
次のタスク
robots.txt
は、ナビゲートして構成設定内のページに戻ることによって、いつでも編集できます。 すべてのサイトにこのファイルを複製することも、サイトごとに異なるポリシーを選択することもできます。