Tutoriel : Configuration du fichier RobotsTxt
Vous pouvez contrôler l'accès d'un robot Web qui visite le portail. Vous pouvez configurer le fichier robots.txt
qui existe sur votre serveur Web, généralement au niveau racine, pour contrôler l'accès. Les robots Web sont des programmes qui explorent le Web afin d'obtenir du contenu Web pour tous les sites visités et qui fournissent de l'indexation afin d'améliorer les performances des moteurs de recherche. Vous pouvez également spécifier des règles distinctes pour différents robots.
Pour quelle raison devrais-je éditer le fichier Drupal robots.txt préexistant ?
Des robots malveillants peuvent choisir de ne pas respecter le fichier robots.txt
, et en éditant ce fichier, vous diffusez les sites qui ne doivent pas être vus par d'autres sites. Par conséquent, vous ne devez pas utiliser ce fichier pour masquer des données sensibles. En revanche, vous pouvez éditer votre fichier robots.txt
pour :
- Empêcher que des informations en double soient identifiées sur votre site
- Empêcher que des pages internes apparaissent dans les moteurs de recherche
- Empêcher que des pages privées apparaissent dans les moteurs de recherche
- Empêcher l'exploration d'images, de fichiers particuliers, etc
- Spécifier un attribut
crawl-delay
afin d'empêcher que des robots ne surchargent votre serveur lors du chargement - Exclure un robot en particulier
Avant de commencer
Un portail de développeur doit être activé et vous devez disposer d'un accès administrateur pour exécuter ce tutoriel.A propos de ce tutoriel
Vous allez éditer le fichier robots.txt
préexistant et exclure l'accès pour un robot nommé BadBot.
- Connectez-vous à votre portail de développeur en tant qu'administrateur.
- Naviguez vers
- Dans la section "
Contents of robots.txt
, entrez la politique d'exclusion de l'accès à un robot appelé BadBot.User-agent: BadBot Disallow: /
- Cliquez sur Enregistrer la configuration pour enregistrer vos modifications.
Tâches exécutées dans ce tutoriel
Vous avez personnalisé le fichier robots.txt
. Les robots utilisent désormais ce fichier mis à jour pour déterminer où ils peuvent effectuer une exploration sur votre site. L'accès par le robot BadBot est exclu.
Vous pouvez vérifier si votre fichier robots.txt
a été correctement modifié en accédant à votre site et en ajoutant /robots.txt. Vous devriez voir le contenu que vous avez saisi dans ce fichier.
Pour plus d'informations sur la manière de modifier votre fichier robots.txt
, voir https://www.robotstxt.org/.
Etape suivante
Vous pouvez éditer le fichier robots.txt
à tout moment en revenant sur la page dans les paramètres de configuration. Vous avez le choix entre dupliquer ce fichier sur tous vos sites ou choisir différentes stratégies pour différents sites.