Le fichier robots.txt est aujourd'hui très courant pour forcer l'indexation, l'exploration de vos pages web ou interdire l'accès aux robots à celles-ci afin de ne pas indexer certains contenus. Cela peut avoir un impact positif pour votre référencement naturel SEO si le fichier est configuré d'une bonne manière.
Le fichier robots.txt est un fichier contenant du texte placé à la racine de son site internet. Il sert principalement aux moteurs de recherches comme Google afin de pouvoir inclure ou exclure des chemins d'accès aux robots d'indexation. L'exploration de ce fichier permettra donc d'autoriser ou d'interdire un ou plusieurs "bots" (robots d'indexation) vers des chemins définis en amont.
Ce fichier peut être créé avec le Bloc Notes de Windows ou tout autre éditeur de texte brut. N'oubliez pas d'enregistrer le fichier à la bonne extension, c'est à dire ".TXT".
En cas de non présence du fichier sur votre site internet, les robots d'indexation auront un fonctionnement par défaut permettant généralement d'indexer toutes les pages sur lesquelles il passera.
La structure la plus basique du fichier robots.txt est celle-ci:
User-Agent : Il s'agit de la configuration des robots d'indexation liés aux moteurs de recherches (Googlebot, Bingbot, etc...)
Allow : Il s'agit de l'instruction permettant d'autoriser l'accès à certaines pages ou certains dossiers.
Disallow : Il s'agit du paramètre permettant d'interdire au robot d'indexer la page indiquée ou le dossier.
Sitemap : Permet de donner aux moteurs de recherches l'URL du sitemap (au format XML).
Il y a plusieurs raisons d'utiliser le fichier robots.txt. La première raison est de pouvoir bloquer le robot d'indexation vers certaines pages, comme un panel d'administration ou encore des pages bloquées au public. Vous pouvez aussi indiquer l'adresse URL de votre sitemap afin que le robot puisse y indexer plus facilement et plus rapidement les pages présentes.
Pour le référencement naturel SEO, ce fichier permet d'éviter aux robots d'indexer certaines pages, comme des pages de contenu dupliqué qui pourraient être pénalisant pour votre référencement, ou encore de limiter l'indexation de pages non importantes ou peu qualitatives.
Le fichier robots.txt doit être optimisé pour un bon fonctionnement. La structure du fichier est simple, et est composée de 3 configurations : User-Agent, Allow, et Disallow.
Il existe plusieuurs User-Agent selon les moteurs de recherches, en voici quelques-uns assez courants:
Google possède de nombreux robots permettant différentes tâches. Vous pouvez retrouver les détails de ces différents robots sur la page de listing des robots d'indexation et d'exploration de Google.
Il s'agit du robot d'indexation du moteur de recherche "Bing".
Robot d'indexation du moteur de recherches "Yahoo".
Nous vous recommandons d'ajouter l'adresse URL de votre sitemap.xml (au format XML), afin de pouvoir optimiser l'indexation de toutes vos pages web.
Vous pouvez spécifier plusieurs sitemaps en possédant un sitemap parent (page XML permettant de lister tous vos sitemaps).
Pour tester le fichier robots.txt et ainsi vérifier sa présence et éviter toute erreur, vous pouvez vous rendre sur la Google Search Console et y ajouter votre site internet, cela prend quelques minutes et vous pourrez avoir accès à des informations détaillées sur certaines statistiques de navigation de votre site web. Cela permettra d'éviter toute erreur d'indexation par la suite et permettra donc d'être certain que le fichier fonctionne comme prévu.