チュートリアル: RobotsTxt ファイルの構成
Web ロボットによるアクセスを制御できます。 Web サーバー上に存在する (通常はルート・レベルにある) robots.txt
ファイルを構成して、アクセスを制御できます。 Web ロボットは、Web をクロールして、アクセスされたすべてのサイトの Web コンテンツを取得するプログラムです。Web ロボットは、検索エンジンのパフォーマンスを向上させるために、インデックス付けを提供します。 ロボットごとに別個のルールを指定することもできます。
Drupal の既存の robots.txt ファイルを編集する理由
悪意のあるロボットは、robots.txt
ファイルに従わない可能性があります。また、このファイルを編集すると、他のユーザーに表示したくないサイトをブロードキャストすることになります。 したがって、機密データを非表示にするためにこのファイルを使用しないでください。 代わりに、以下の目的で robots.txt
ファイルを編集できます。
- 重複する情報がサイト上で識別されることを防止します。
- 内部ページが検索エンジンに表示されることを防止します。
- プライベート・ページが検索エンジンに表示されることを防止します。
- 特定の画像やファイルなどがクロールされないようにする
crawl-delay
属性を指定して、ロード時にロボットによってサーバーで過負荷が発生することを防止します。- 特定のロボットを除外します。
開始前に
このチュートリアルを完了するには、 開発者ポータル を有効にして、管理者権限を持っている必要があります。このチュートリアルについて
既存の robots.txt
ファイルを編集し、BadBot という名前のロボットによるアクセスを除外します。
- 開発者ポータル に管理者としてログインします。
Contents of robots.txt
セクションに、BadBotというロボットへのアクセスを除外するポリシーを入力する。User-agent: BadBot Disallow: /
- 「構成の保存 (Save configuration)」をクリックして、変更を保存します。
このチュートリアルで実行したこと
これで、robots.txt
ファイルが正常にカスタマイズされました。 ロボットは、この更新済みファイルを使用して、サイト上でクロールできる場所を決定できるようになりました。 BadBot は、アクセス可能なロボットから除外されました。
robots.txt
ファイルが正常に変更されたかどうかを確認するには、サイトにナビゲートして /robots.txtを追加します。 そのファイルに入力した内容が表示されます。
robots.txt
ファイルの編集方法については、https://www.robotstxt.org/
次のタスク
robots.txt
は、ナビゲートして構成設定内のページに戻ることによって、いつでも編集できます。 すべてのサイトにこのファイルを複製することも、サイトごとに異なるポリシーを選択することもできます。