チュートリアル: RobotsTxt ファイルの構成

Web ロボットによるアクセスを制御できます。 Web サーバー上に存在する (通常はルート・レベルにある) robots.txt ファイルを構成して、アクセスを制御できます。 Web ロボットは、Web をクロールして、アクセスされたすべてのサイトの Web コンテンツを取得するプログラムです。Web ロボットは、検索エンジンのパフォーマンスを向上させるために、インデックス付けを提供します。 ロボットごとに別個のルールを指定することもできます。

Drupal の既存の robots.txt ファイルを編集する理由

悪意のあるロボットは、robots.txt ファイルに従わない可能性があります。また、このファイルを編集すると、他のユーザーに表示したくないサイトをブロードキャストすることになります。 したがって、機密データを非表示にするためにこのファイルを使用しないでください。 代わりに、以下の目的で robots.txt ファイルを編集できます。

  • 重複する情報がサイト上で識別されることを防止します。
  • 内部ページが検索エンジンに表示されることを防止します。
  • プライベート・ページが検索エンジンに表示されることを防止します。
  • 特定の画像やファイルなどがクロールされないようにする
  • crawl-delay 属性を指定して、ロード時にロボットによってサーバーで過負荷が発生することを防止します。
  • 特定のロボットを除外します。

開始前に

このチュートリアルを完了するには、 開発者ポータル を有効にして、管理者権限を持っている必要があります。

このチュートリアルについて

既存の robots.txt ファイルを編集し、BadBot という名前のロボットによるアクセスを除外します。

  1. 開発者ポータル に管理者としてログインします。
  2. 設定 ] > [ 検索とメタデータ ] > [ RobotsTxt]を開きます。

    RobotsTxtのページ

  3. Contents of robots.txtセクションに、BadBotというロボットへのアクセスを除外するポリシーを入力する。
    User-agent: BadBot
    Disallow: /
  4. 「構成の保存 (Save configuration)」をクリックして、変更を保存します。

このチュートリアルで実行したこと

これで、robots.txt ファイルが正常にカスタマイズされました。 ロボットは、この更新済みファイルを使用して、サイト上でクロールできる場所を決定できるようになりました。 BadBot は、アクセス可能なロボットから除外されました。

robots.txt ファイルが正常に変更されたかどうかを確認するには、サイトにナビゲートして /robots.txtを追加します。 そのファイルに入力した内容が表示されます。

結果の表示

robots.txtファイルの編集方法については、https://www.robotstxt.org/

次のタスク

robots.txt は、ナビゲートして構成設定内のページに戻ることによって、いつでも編集できます。 すべてのサイトにこのファイルを複製することも、サイトごとに異なるポリシーを選択することもできます。