Aller au contenu
[LIVE] FIX SEO POSITION #1 SUR 412 MOTS-CLÉS TRAFIC ORGANIQUE ▲ +247% YoY 50+ PME ACCOMPAGNÉES AUDIT EN 72H BASÉS EN FRANCE [LIVE] FIX SEO POSITION #1 SUR 412 MOTS-CLÉS TRAFIC ORGANIQUE ▲ +247% YoY 50+ PME ACCOMPAGNÉES AUDIT EN 72H BASÉS EN FRANCE
SEO technique · 9 min de lecture

Robots.txt : comment le configurer sans pénaliser votre SEO

Le fichier robots.txt expliqué pour les PME : règles utiles, erreurs fatales, exemples concrets. Méthode chiffrée et reproductible.

Équipe Fix SEO
Fix SEO · agence SEO PME
Robots.txt — Fix SEO

Un fichier robots.txt mal configuré peut désindexer un site entier en 48 heures. Une seule ligne mal placée — un Disallow: / oublié après un déploiement — et des années de SEO partent en fumée. Ce n’est pas un cas théorique : on l’a vu sur 3 sites PME au cours des 12 derniers mois.

Le robots.txt est l’un des fichiers les plus puissants et les plus dangereux du SEO. Il contrôle directement ce que Google a le droit de crawler. Bien configuré, il optimise le budget de crawl. Mal configuré, il rend le site invisible.

Cet article détaille la syntaxe complète du robots.txt, les règles utiles pour une PME, les erreurs fatales à éviter, et des exemples copiables pour les configurations les plus courantes.

À quoi sert vraiment le robots.txt

Le fichier robots.txt est une norme datant de 1994. Il indique aux robots d’exploration (Googlebot, Bingbot, etc.) quelles parties du site ils ont le droit de crawler.

Trois fonctions concrètes :

Fonction 1 — éviter le gaspillage de budget crawl. Sur un site PME de moins de 1000 pages, le budget crawl n’est pas un sujet. Au-delà, Google attribue un nombre limité de pages crawlées par jour. Bloquer les pages inutiles (admin, recherche interne, paniers) libère du budget pour les pages stratégiques.

Fonction 2 — protéger les ressources sensibles. Pages de connexion, espaces membres, fichiers techniques internes : on ne veut pas que Google les indexe.

Fonction 3 — déclarer le sitemap. Le robots.txt référence le sitemap.xml du site. C’est une méthode complémentaire à la soumission Search Console.

Important : robots.txt ne bloque pas l’indexation, il bloque le crawl. La nuance est essentielle et source de nombreuses erreurs.

La syntaxe du robots.txt

Quatre directives composent la quasi-totalité des fichiers robots.txt.

User-agent

Indique à quel robot s’applique la règle. * signifie « tous les robots ». Sinon, on peut cibler un robot spécifique : Googlebot, Bingbot, Slurp (Yahoo).

Disallow

Indique les chemins interdits au crawl. Le chemin doit commencer par /. Le caractère * est un joker.

Disallow: /admin/
Disallow: /panier
Disallow: /*.pdf$

Allow

Indique les chemins autorisés. Utilisé surtout pour créer des exceptions à une règle Disallow.

Disallow: /private/
Allow: /private/public-doc.html

Sitemap

Indique l’emplacement du sitemap. Toujours en URL absolue.

Sitemap: https://votresite.fr/sitemap.xml

Crawl-delay (déprécié pour Google)

Indique un délai entre deux requêtes. Google l’ignore depuis 2019, mais Bing et Yandex le respectent encore.

Exemple de robots.txt pour site PME standard

Voici une configuration de base recommandée pour 80 % des sites PME.

User-agent: *
Allow: /

Disallow: /admin/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /panier
Disallow: /checkout
Disallow: /mon-compte
Disallow: /recherche

Sitemap: https://votresite.fr/sitemap.xml

Cette configuration :

  • Autorise le crawl de tout le site par défaut
  • Bloque les pages d’administration et de connexion
  • Bloque les pages de panier, paiement et compte utilisateur
  • Bloque les pages de résultats de recherche interne (qui créent du contenu dupliqué)
  • Déclare le sitemap.xml

Configurations spécifiques par CMS

WordPress

Configuration recommandée pour WordPress :

User-agent: *
Allow: /
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /search/
Disallow: /tag/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://votresite.fr/sitemap_index.xml

Note importante : ne pas bloquer /wp-content/ (sinon les images ne sont pas indexées). Et autoriser admin-ajax.php pour les fonctionnalités dynamiques.

Shopify

Shopify gère son robots.txt automatiquement. Personnalisation possible via le fichier robots.txt.liquid dans le thème (depuis 2021). Configuration par défaut généralement suffisante.

Astro / Next.js / sites statiques

Fichier robots.txt placé dans le dossier public/. Il est copié à la racine au build. Aucune génération dynamique nécessaire pour un site PME.

E-commerce avec filtres

Pour les sites e-commerce avec filtres (taille, couleur, prix), le risque est massif de contenu dupliqué via les URLs paramétrées.

User-agent: *
Disallow: /*?
Disallow: /*&
Allow: /*?page=
Allow: /*?id=

Cette configuration bloque toutes les URLs paramétrées sauf celles utiles à l’indexation (pagination, ID produit).

Les erreurs fatales à éviter

Huit erreurs qu’on retrouve sur des sites PME et qui peuvent coûter de 30 à 100 % du trafic.

Erreur 1 — Le Disallow: / oublié

C’est l’erreur la plus destructrice. Un développeur teste en staging avec Disallow: / (bloque tout le site), puis oublie de le retirer au passage en prod. Conséquence : le site disparaît de Google en 7-14 jours.

Prévention : checklist de mise en prod incluant systématiquement la vérification du robots.txt.

Erreur 2 — Bloquer le CSS et le JavaScript

Bloquer /wp-includes/, /assets/css/ ou /static/js/ empêche Google de rendre correctement la page. Conséquence : pages mal évaluées, Core Web Vitals erronés, baisse de classement.

Règle : ne jamais bloquer les ressources nécessaires au rendu.

Erreur 3 — Bloquer les images

Bloquer /wp-content/uploads/ ou /images/ empêche l’indexation des images, donc l’apparition dans Google Images. Sur un site PME, ça représente 5-15 % du trafic perdu.

Erreur 4 — Croire que robots.txt empêche l’indexation

Erreur conceptuelle fréquente. Robots.txt bloque le crawl, pas l’indexation. Une page bloquée par robots.txt peut apparaître dans Google avec la mention « Aucune information disponible pour cette page » si elle a des backlinks externes.

Pour empêcher l’indexation, utiliser la balise <meta name="robots" content="noindex"> sur la page. Pour aller plus loin, consultez notre guide sur l’indexation Google.

Erreur 5 — Bloquer une page en noindex via robots.txt

Combinaison dangereuse : bloquer une page dans robots.txt ET y mettre noindex. Conséquence : Google ne peut pas crawler la page, donc ne voit pas le noindex. La page reste indexée.

Règle : pour désindexer, retirer d’abord du robots.txt, attendre la désindexation (3-6 semaines), puis bloquer si nécessaire.

Erreur 6 — Chemins en majuscules/minuscules

Le robots.txt est case-sensitive. /Admin/ n’est pas équivalent à /admin/. Toujours respecter la casse exacte des URLs.

Erreur 7 — Oublier le slash final

Disallow: /private bloque /private, /private/page, /private-zone. Si vous voulez bloquer uniquement le dossier /private/, utilisez Disallow: /private/ avec slash final.

Erreur 8 — Multiples robots.txt sur sous-domaines

Chaque sous-domaine (www, blog, shop) doit avoir son propre robots.txt. Un site qui a votresite.fr et blog.votresite.fr doit avoir deux fichiers robots.txt distincts.

Cas d’usage avancés

Bloquer un robot spécifique

Pour bloquer un scraper ou un bot indésirable (souvent identifié dans les logs) :

User-agent: AhrefsBot
Disallow: /

User-agent: SemrushBot
Disallow: /

Attention : ces robots respectent généralement robots.txt, mais les scrapers malveillants l’ignorent. Pour bloquer réellement, configuration au niveau serveur (Cloudflare, fail2ban).

Crawl-delay pour réduire la charge serveur

Si votre serveur est sous-dimensionné et que les crawlers le saturent :

User-agent: Bingbot
Crawl-delay: 10

Indique à Bingbot d’attendre 10 secondes entre chaque requête. Google ne respecte pas cette directive (utilisez Search Console pour ralentir Googlebot).

Bloquer les fichiers d’un certain type

User-agent: *
Disallow: /*.pdf$
Disallow: /*.doc$
Disallow: /*.zip$

Utile si vous voulez que les téléchargements ne soient pas indexés (souvent fichiers techniques internes).

Cas multilingue

User-agent: *
Disallow: /en/admin/
Disallow: /fr/admin/

Sitemap: https://votresite.fr/sitemap.xml
Sitemap: https://votresite.fr/sitemap-fr.xml
Sitemap: https://votresite.fr/sitemap-en.xml

Plusieurs sitemaps peuvent être déclarés dans le même robots.txt.

Tester et valider votre robots.txt

Trois outils gratuits indispensables.

Search Console — Test du robots.txt

Search Console → Paramètres → « Tester le fichier robots.txt ». Permet de :

  • Vérifier la syntaxe
  • Tester une URL spécifique (autorisée ou bloquée)
  • Voir la version vue par Google
  • Forcer la mise à jour du cache Google

Curl en ligne de commande

curl https://votresite.fr/robots.txt

Vérification rapide que le fichier est accessible et lisible.

Screaming Frog

Configuration > Robots.txt > « Respect robots.txt » + « Show internal URLs blocked by robots.txt ». Identifie toutes les URLs internes bloquées par votre robots.txt.

Le rapport entre robots.txt et sitemap.xml

Robots.txt et sitemap.xml sont complémentaires, pas équivalents.

  • Robots.txt dit « voici ce que vous AVEZ LE DROIT de crawler »
  • Sitemap.xml dit « voici ce que je veux que vous indexiez »

Cohérence absolue exigée : aucune URL ne doit être dans le sitemap ET bloquée dans robots.txt. Cette incohérence est l’erreur la plus fréquente sur les audits PME.

Pour le détail du sitemap, lisez notre guide sur la création et soumission de sitemap.xml.

Le concept de crawl budget

Pour les sites de moins de 1000 pages, le crawl budget n’est pas un sujet. Pour les sites de plus de 10 000 pages, c’est central.

Google attribue un budget de crawl proportionnel à l’autorité du site, à sa fréquence de mise à jour, à la qualité des pages. Un site qui a 50 000 pages avec un budget de 1000 pages/jour mettra 50 jours pour tout crawler une fois.

Le robots.txt aide à optimiser ce budget en bloquant les pages inutiles. Sur un site e-commerce avec 10 000 produits et 100 000 URLs paramétrées (filtres), bloquer les filtres libère 90 % du budget pour les vraies fiches produits.

Robots.txt et autres directives

Robots.txt s’inscrit dans un écosystème de directives de crawl/indexation. Bien comprendre les différences :

DirectiveBloque crawlBloque indexationNiveau
robots.txt DisallowOuiNonFichier global
meta robots noindexNonOuiPage individuelle
X-Robots-Tag noindexNonOuiHeader HTTP
canonicalNonNon (suggère canonique)Page individuelle
nofollowNonNon (ne suit pas les liens)Lien ou meta

Chaque outil a son cas d’usage. Robots.txt pour bloquer en masse, noindex pour désindexer proprement, canonical pour gérer la duplication.

Workflow de configuration recommandé

Pour mettre en place un robots.txt propre sur un site PME, voici le workflow.

Étape 1 — audit existant. Vérifier le robots.txt actuel via https://votresite.fr/robots.txt. Identifier les règles présentes et leur pertinence.

Étape 2 — inventaire des chemins à bloquer. Lister les URLs qui n’ont rien à faire dans Google : admin, panier, espaces privés, paramètres techniques.

Étape 3 — rédaction du nouveau robots.txt. Suivre les exemples ci-dessus selon votre stack.

Étape 4 — test en staging. Mettre le nouveau robots.txt en staging et tester avec Screaming Frog.

Étape 5 — mise en prod. Remplacer le fichier en production.

Étape 6 — validation Search Console. Tester le robots.txt avec l’outil dédié. Vérifier que les URLs stratégiques sont bien autorisées.

Étape 7 — monitoring. Suivre l’évolution du crawl dans Search Console pendant 30 jours.

Combien de temps avant de voir l’effet

Modification du robots.txt : effet immédiat techniquement.

Détection par Google : 24 heures dans 95 % des cas. Le robots.txt est récupéré fréquemment par Googlebot.

Effet sur le crawl : 48-72 heures pour que la nouvelle configuration soit appliquée à toutes les URLs.

Effet sur l’indexation : variable. Une URL nouvellement autorisée sera crawlée dans 1-7 jours. Une URL nouvellement bloquée mettra 3-6 semaines à être désindexée (si elle l’est volontairement).

En résumé

Le robots.txt est un fichier court (souvent 10-20 lignes) mais puissant. Bien configuré, il optimise le crawl et protège les ressources sensibles. Mal configuré, il peut désindexer un site entier.

Les 3 règles d’or :

  1. Toujours vérifier le robots.txt après chaque mise en prod
  2. Ne jamais bloquer CSS, JS, images nécessaires au rendu
  3. Cohérence stricte entre robots.txt, sitemap, et meta robots

Si vous voulez qu’on audite votre robots.txt et qu’on optimise votre configuration de crawl, voyez notre service d’optimisation technique. Sinon, ouvrez votresite.fr/robots.txt maintenant. En 30 secondes, vous saurez si votre fichier est propre ou s’il faut le réécrire. Pour situer le robots.txt dans une démarche d’audit complète, consultez notre checklist d’audit SEO technique.

Questions fréquentes

Le fichier robots.txt est-il obligatoire ?

+

Non, mais fortement recommandé. Sans robots.txt, Google crawle tout ce qu'il trouve, ce qui n'est pas grave pour un petit site mais gaspille le budget de crawl sur les sites de plus de 1000 pages. Un robots.txt minimal vaut toujours mieux qu'aucun robots.txt.

Robots.txt empêche-t-il l'indexation ?

+

Non. Robots.txt empêche le crawl, pas l'indexation. Une page bloquée dans robots.txt peut toujours apparaître dans Google si elle a des backlinks externes, avec la mention 'Aucune information disponible pour cette page'. Pour empêcher l'indexation, utiliser la balise noindex.

Où placer le fichier robots.txt ?

+

À la racine du domaine, accessible à https://votresite.fr/robots.txt. Pas dans un sous-dossier, pas dans /admin/, pas ailleurs. Si le fichier n'est pas à cet emplacement exact, Google considère qu'il n'existe pas.

Combien de temps Google met-il à prendre en compte une modification du robots.txt ?

+

Google récupère le robots.txt à chaque visite du site, généralement plusieurs fois par jour. Une modification est prise en compte sous 24 heures dans 95 % des cas. Pour forcer la mise à jour, utiliser l'outil 'Test du robots.txt' dans Search Console.

Tags robots.txtcrawlindexationPMESEO technique
→ on en parle ?

appliquer ça chez vous, on s'en charge.

Demander un audit gratuit ↗