Tutoriel : Configuration du fichier RobotsTxt

Vous pouvez contrôler l'accès d'un robot Web qui visite le portail. Vous pouvez configurer le fichier robots.txt qui existe sur votre serveur Web, généralement au niveau racine, pour contrôler l'accès. Les robots Web sont des programmes qui explorent le Web afin d'obtenir du contenu Web pour tous les sites visités et qui fournissent de l'indexation afin d'améliorer les performances des moteurs de recherche. Vous pouvez également spécifier des règles distinctes pour différents robots.

Pour quelle raison devrais-je éditer le fichier Drupal robots.txt préexistant ?

Des robots malveillants peuvent choisir de ne pas respecter le fichier robots.txt, et en éditant ce fichier, vous diffusez les sites qui ne doivent pas être vus par d'autres sites. Par conséquent, vous ne devez pas utiliser ce fichier pour masquer des données sensibles. En revanche, vous pouvez éditer votre fichier robots.txt pour :

  • Empêcher que des informations en double soient identifiées sur votre site
  • Empêcher que des pages internes apparaissent dans les moteurs de recherche
  • Empêcher que des pages privées apparaissent dans les moteurs de recherche
  • Empêcher l'exploration d'images, de fichiers particuliers, etc
  • Spécifier un attribut crawl-delay afin d'empêcher que des robots ne surchargent votre serveur lors du chargement
  • Exclure un robot en particulier

Avant de commencer

Un portail de développeur doit être activé et vous devez disposer d'un accès administrateur pour exécuter ce tutoriel.

A propos de ce tutoriel

Vous allez éditer le fichier robots.txt préexistant et exclure l'accès pour un robot nommé BadBot.

  1. Connectez-vous à votre portail de développeur en tant qu'administrateur.
  2. Naviguez vers Configuration > Recherche et métadonnées > RobotsTxt.

    RobotsTxt page

  3. Dans la section " Contents of robots.txt, entrez la politique d'exclusion de l'accès à un robot appelé BadBot.
    User-agent: BadBot
    Disallow: /
  4. Cliquez sur Enregistrer la configuration pour enregistrer vos modifications.

Tâches exécutées dans ce tutoriel

Vous avez personnalisé le fichier robots.txt. Les robots utilisent désormais ce fichier mis à jour pour déterminer où ils peuvent effectuer une exploration sur votre site. L'accès par le robot BadBot est exclu.

Vous pouvez vérifier si votre fichier robots.txt a été correctement modifié en accédant à votre site et en ajoutant /robots.txt. Vous devriez voir le contenu que vous avez saisi dans ce fichier.

Afficher les résultats

Pour plus d'informations sur la manière de modifier votre fichier robots.txt, voir https://www.robotstxt.org/.

Etape suivante

Vous pouvez éditer le fichier robots.txt à tout moment en revenant sur la page dans les paramètres de configuration. Vous avez le choix entre dupliquer ce fichier sur tous vos sites ou choisir différentes stratégies pour différents sites.