Le fichier robots.txt : guide du débutant SEO

Le fichier robots.txt est un petit fichier texte (placé à la racine de votre site) qui contient des instructions pour les robots des moteurs de recherche, indiquant quelles pages ou sections du site ils peuvent explorer ou non. En d’autres termes, c’est un moyen pour le propriétaire d’un site de communiquer avec les crawlers (robots d’exploration) des moteurs de recherche et de contrôler l’accès à certaines parties du site. Ce fichier, aussi simple soit-il, peut avoir un impact majeur sur la façon dont votre site est exploré et indexé : bien configuré, il guide correctement les robots, mais mal configuré, il peut empêcher l’indexation de pages essentielles.

Dans cet article, nous allons expliquer ce qu’est le robots.txt, à quoi il sert en SEO, comment il fonctionne, les erreurs fréquentes à éviter, des exemples concrets de bons et mauvais robots.txt, ainsi que quand (et pourquoi) l’utiliser ou s’en passer. L’objectif est de vulgariser ces concepts techniques tout en restant précis, afin que même un débutant en référencement naturel puisse maîtriser cet outil incontournable.

Qu’est-ce que le fichier robots.txt et à quoi sert-il

Le fichier robots.txt fait partie du protocole d’exclusion des robots (REP). Concrètement, c’est un simple fichier texte (que l’on peut créer avec un éditeur basique) qui doit être placé à la racine du nom de domaine (par exemple https://www.monsite.com/robots.txt) pour être détecté. Lorsqu’un moteur de recherche comme Google ou Bing arrive sur votre site, la première chose que son robot fait est de rechercher le fichier robots.txt. S’il existe, il sera lu avant que le robot n’explore d’autres URL du site. Ce fichier contient des directives que les robots vont suivre (du moins, les robots bienveillants le font : les moteurs de recherche sérieux respectent généralement ces règles, tandis que les robots malveillants peuvent les ignorer).

À quoi sert le robots.txt ? Principalement, à gérer l’exploration du site par les robots et à éviter qu’ils n’accèdent à certaines pages non désirées. Dans une stratégie SEO, cela se traduit par plusieurs usages concrets :

Éviter la surcharge du serveur et optimiser le crawl : en limitant l’exploration de pages non importantes, on évite de gaspiller des ressources. Par exemple, Google alloue à chaque site un certain budget de crawl (nombre de pages explorées par période) qui dépend de la taille et de la santé du site. Mieux vaut que Googlebot consacre ce budget aux pages stratégiques. Bloquer les pages inutiles via robots.txt permet à Googlebot de se concentrer sur les pages importantes de votre site. C’est aussi un moyen d’éviter de submerger votre serveur de requêtes inutiles si vous avez un site très large.
Empêcher l’exploration de pages sensibles ou sans intérêt public : toutes les pages de votre site n’ont pas vocation à apparaître dans Google. Par exemple, vous pourriez bloquer via robots.txt l’accès à un espace d’administration (/admin/), à des pages de connexion ou à un site de test/staging dupliqué, afin qu’ils ne soient pas explorés ni potentiellement indexés. De même, il est fréquent de bloquer les pages de résultats internes (moteur de recherche interne, filtres à facettes sur un site e-commerce, etc.) qui génèrent des URL multiples sans valeur ajoutée pour l’utilisateur externe.
Réduire les problèmes de contenu dupliqué : le robots.txt peut contribuer à prévenir l’indexation de pages en double. Par exemple, si vous avez des versions imprimables ou des pages de test en double, vous pouvez les bloquer pour que les moteurs ne les explorent pas. (Gardez à l’esprit toutefois que pour le contenu dupliqué, la balise canonique ou le noindex sont souvent plus appropriés, nous y reviendrons.)
Indiquer le chemin du sitemap XML : c’est une bonne pratique d’inclure dans le fichier robots.txt l’URL de votre sitemap (plan de site au format XML). Cela permet aux moteurs de recherche de découvrir plus facilement toutes les URL importantes de votre site. Par exemple, on peut ajouter une ligne Sitemap: https://www.monsite.com/sitemap.xml à la fin du fichier. Signaler votre sitemap dans robots.txt aide les moteurs à trouver rapidement toutes vos pages stratégiques.

En somme, le robots.txt est un outil pour orienter les robots : il sert à leur dire « Allez voir ici » ou « N’allez pas voir là ». Cela contribue à améliorer l’efficacité de l’exploration de votre site par Google et consorts, et à éviter que des pages non pertinentes ne se retrouvent indexées dans les résultats de recherche.

🎯 Remarque importante : Le but du fichier robots.txt n’est pas d’empêcher qu’une page soit indexée dans Google. Il sert à bloquer l’exploration d’URL, ce qui est différent de l’indexation. Si une page est bloquée par robots.txt mais qu’un autre site fait un lien vers elle, Google pourra tout de même indexer son URL (sans en lire le contenu) sur base de ce lien. Vous pourriez ainsi voir apparaître une URL bloquée dans Google, mais sans description (le moteur n’ayant pas pu la crawler). Pour réellement empêcher l’indexation d’une page, il faut utiliser d’autres méthodes (par exemple la balise meta noindex dans le code HTML, ou une protection par mot de passe). Nous insistons sur ce point car c’est une confusion fréquente chez les débutants en SEO.

Comment fonctionne le fichier robots.txt ?

Le fonctionnement du robots.txt repose sur un ensemble de directives simples, écrites dans un format spécifique. Malgré son importance, la syntaxe de ce fichier est assez facile à comprendre.

User-agent – C’est le nom du robot auquel on adresse une règle. Par exemple Googlebot pour le robot de Google, Bingbot pour celui de Bing, etc. On peut utiliser User-agent: * pour s’adresser à tous les robots sans distinction. Chaque groupe de directives dans le fichier commence par une ligne User-agent, suivie des règles (Allow/Disallow) qui s’appliquent à ce robot.
Disallow – Cette directive indique le chemin (URL partielle) qui ne doit pas être exploré par le robot indiqué. Par exemple, Disallow: /admin/ signifie « n’explore pas l’URL /admin/ et tout ce qui commence par /admin/ » pour les robots concernés. On peut bloquer des dossiers entiers ou des fichiers spécifiques. Par défaut, tout ce qui n’est pas listé en Disallow est autorisé. Il n’est donc pas nécessaire de faire des listes de “Allow” pour chaque page du site ; on ne précise que ce qu’on veut bloquer.
Allow – À l’inverse, cette directive autorise explicitement l’exploration d’un chemin précis, même s’il était couvert par un Disallow plus global. Cette directive n’est pas prévue dans la spécification d’origine mais est comprise par Google et certains autres moteurs. Elle sert surtout à créer des exceptions. Par exemple, si on a Disallow: /archive/ (pour bloquer un dossier entier) mais que l’on veut quand même laisser passer une page précise de l’archive, on ajouterait Allow: /archive/page-speciale.html. L’ordre des directives n’a pas d’importance, ce sont les chemins les plus spécifiques (les plus longs) qui l’emportent sur les plus généraux.
Sitemap – Comme évoqué, on peut indiquer l’URL d’un sitemap XML. C’est simplement une ligne commençant par Sitemap: suivie de l’adresse complète (y compris http/https). Cela n’a pas de lien avec l’exploration en tant que tel, mais c’est un pointe utile pour le robot qui lit le fichier.

Voici un exemple basique de contenu de fichier robots.txt :

Dans cet exemple : on s’adresse à tous les robots (User-agent: *), on bloque l’accès à tout le répertoire /admin/ sauf une page spécifique d’inscription qu’on autorise explicitement, on bloque aussi un dossier temporaire /temp/, et enfin on indique le sitemap du site. Un robot tel que Googlebot qui lit ce fichier comprendra qu’il ne doit pas crawler les pages d’admin (sauf l’URL d’inscription), ni le dossier temporaire.

Syntaxe et règles d’écriture : chaque directive doit être sur une ligne séparée (ne pas les combiner sur une seule ligne). Les groupes de directives pour un même User-agent doivent être regroupés ensemble. Il est recommandé de ne mentionner chaque User-agent qu’une seule fois dans le fichier pour éviter les confusions. Vous pouvez utiliser le caractère * en joker dans les chemins pour viser un motif d’URL (par ex. Disallow: /recherche* bloquera toutes les URL commençant par “/recherche”) et le symbole $ pour indiquer la fin d’une URL (par ex. Disallow: /*.pdf$ bloquera toutes les URL finissant par “.pdf”). Ces fonctionnalités avancées peuvent s’avérer utiles, mais utilisez-les avec précaution pour ne pas bloquer plus que prévu.

Enfin, sachez que tout ce qui suit un symbole # sur une ligne est ignoré par les robots (c’est un commentaire). Vous pouvez donc commenter votre fichier pour expliquer certaines règles, ce qui est pratique pour la maintenance. Par exemple :

Ici la ligne de commentaire (commençant par #) n’aura aucun effet sur le robot, c’est juste pour votre compréhension.

Les erreurs fréquentes à éviter avec le robots.txt

Même s’il est simple en apparence, le fichier robots.txt peut provoquer des dégâts SEO majeurs en cas de mauvaise configuration. Voici les erreurs les plus courantes à éviter :

Bloquer accidentellement l’ensemble du site – C’est sans doute la pire erreur : un fichier robots.txt qui contient Disallow: / pour tous les robots (“Disallow: /” sous un User-agent: *) va empêcher tous les moteurs d’explorer votre site en entier. Parfois, cette directive est mise en place sur un site de développement ou en préproduction pour empêcher l’indexation pendant les tests, mais si elle n’est pas enlevée lors du passage en production, le site devient invisible des moteurs ! Vérifiez toujours que votre robots.txt en ligne n’interdit pas par inadvertance tout le site. C’est arrivé à de nombreuses entreprises par simple oubli.
Mauvais emplacement ou nom de fichier – Le fichier doit se nommer exactement robots.txt et être placé à la racine du domaine. Si vous le mettez dans un sous-dossier (ex : monsite.com/fichiers/robots.txt) ou si vous faites une faute (ex : robot.txt sans “s”), les moteurs ne le trouveront pas et considéreront que vous n’en avez pas. Rappel : l’URL doit être précisément https://www.votredomaine.com/robots.txt. Assurez-vous aussi de le mettre sur chaque sous-domaine si vous en avez (par exemple, si vous avez un site principal sur www.monsite.com et un blog sur blog.monsite.com, il faut un robots.txt distinct pour blog.monsite.com si vous avez des règles spécifiques à y appliquer).
Erreurs de syntaxe et format – Un robots.txt mal formaté peut être incompris par les robots. Respectez bien la syntaxe : une directive par ligne, un User-agent suivi de ses Disallow/Allow sur les lignes suivantes, puis un autre User-agent si besoin, etc. Ne pas utiliser d’URL complètes après Disallow ou Allow (il faut indiquer des chemins relatifs, pas https://... dans la directive). N’utilisez pas non plus de caractères non supportés ou de majuscules si l’URL est en minuscules (les chemins sont sensibles à la casse sur certains serveurs). En cas de doute, utilisez un outil de test (voir plus bas) pour vérifier que vos règles sont prises en compte correctement. Un exemple de mauvaise syntaxe serait d’écrire sur la même ligne User-agent: * Disallow: /admin/ au lieu de faire un retour à la ligne entre les deux – ce qui rendrait la directive inefficace.
Empêcher l’exploration de pages importantes sans le vouloir – Par excès de zèle, on peut être tenté de bloquer de larges portions du site, mais attention aux effets de bord. Par exemple, bloquer toutes les URL avec paramètres (Disallow: /*?) peut sembler une bonne idée pour éviter que les robots se perdent dans des filtres, mais si votre pagination utilise aussi des paramètres (ex : page=2 dans l’URL), vous risquez d’empêcher le crawl de pages de contenu importantes. De même, évitez de bloquer des répertoires entiers sans réfléchir à ce qu’ils contiennent. Une règle trop générale peut englober des pages utiles. Révisez régulièrement les pages bloquées pour s’assurer que rien de critique ne l’est par erreur (des outils comme Screaming Frog ou la Search Console peuvent vous lister les URL bloquées par robots.txt).
Blocage des ressources CSS/JS – Ne bloquez pas vos fichiers CSS ou JavaScript nécessaires au rendu de vos pages. Par le passé, certains référenceurs empêchaient l’exploration de /wp-content/ ou d’autres dossiers contenant du code front, pensant que cela n’avait pas d’importance pour le SEO. Aujourd’hui, Google rend les pages quasiment comme un navigateur, il a besoin d’accéder aux fichiers CSS et JS pour comprendre le layout et l’expérience utilisateur. Si vous bloquez ces ressources, Google pourrait mal voir votre site (par exemple, ne pas charger le design responsive) et cela peut nuire au référencement. En bref, laissez vos ressources nécessaires ouvertes à l’exploration – Google vous en remerciera en comprenant mieux vos pages.
Oublier d’indiquer le Sitemap – Ce n’est pas une erreur fatale, mais c’est une opportunité manquée. Inclure la directive Sitemap: dans le robots.txt est simple et aide les moteurs à trouver votre plan de site XML plus rapidement. Ne pas le faire n’empêchera pas l’indexation si votre sitemap est soumis par ailleurs, mais pourquoi se priver d’indiquer clairement aux robots où se trouve la liste de toutes vos pages ? Pensez donc à ajouter cette ligne, surtout si vous avez un site volumineux ou plusieurs sitemaps (dans le cas d’un site multilingue par ex., listez-les tous).
Utiliser robots.txt à la place d’autres méthodes – Comme mentionné plus haut, ne confondez pas blocage d’exploration et blocage d’indexation. Une erreur fréquente consiste à ajouter une page au Disallow en pensant qu’elle disparaîtra de Google, alors qu’en réalité elle peut toujours être indexée. Si vous devez dépublier une page des résultats de recherche, utilisez la balise meta noindex (et assurez-vous de ne pas bloquer son crawl, sinon Google ne verra jamais le noindex !). De même, pour protéger un contenu sensible, le robots.txt n’est pas une protection : n’importe quel humain ou robot malveillant peut consulter votre fichier robots.txt (il est public) et voir ce que vous tentez de masquer. Des robots spammeurs ignorent souvent les règles, et pourraient même s’en servir pour détecter les dossiers que vous jugez “sensibles” afin d’y accéder. Ne mettez jamais d’informations confidentielles directement en ligne en comptant sur robots.txt pour les cacher – utilisez des mesures de sécurité (authentification, restriction IP, etc.) à la place. Google le rappelle d’ailleurs : les directives robots.txt ne sont pas une garantie et ne lient que les robots qui choisissent de les respecter.

(Autre erreur moins commune mais à connaître : évitez d’indiquer des chemins avec des caractères encodés ou des espaces non gérés, et n’utilisez la directive Crawl-delay que si nécessaire pour certains bots – Googlebot n’interprète pas Crawl-delay, cette directive ne fonctionne qu’avec quelques moteurs comme Bing ou Yandex.)

Pour résumer, un robots.txt mal configuré peut faire chuter votre visibilité. Heureusement, l’erreur la plus courante (le blocage total involontaire du site) est facile à éviter avec un minimum de vigilance, et les autres erreurs se préviennent en suivant les bonnes pratiques ci-dessus. N’hésitez pas à tester votre fichier robots.txt avec des outils dédiés : Google Search Console offre un outil de test du robots.txt très pratique pour vérifier quelles URLs sont bloquées ou non. Utilisez-le après toute modification, afin d’éviter les mauvaises surprises.

Pourquoi confier votre audit SEO à Webskills ?

Parce qu’il vaut mieux le confier à un expert, un expert certifié ! N’est-ce pas ?

Les garanties Webskills

SERVICE DE QUALITÉ

CONSEILS PERSONNALISÉS

RÉPONSES CLAIRES ET DÉTAILLÉES

RÉSULTATS CONCRETS

PROFITEZ DE LA PREMIÈRE ÉTAPE OFFERTE

Nous inspectons gratuitement et sans engagement votre site afin de déterminer s’il a besoin ou non d’un audit SEO.

Contactez-nous

Jonathan Leplang - Expert SEO - WebSkills

« En référencement, on ne peut pas améliorer un élément de 1000% mais on peut améliorer 1000 éléments d’1% et c’est en cela que consiste un audit SEO »

Jonathan Leplang, passionné de référencement & dénicheur d’opportunités pour booster votre visibilité sur internet.

Contactez-nous

À propos