Crawl budget : qu'est-ce que c'est et comment l'optimiser
Comprendre le crawl budget Google et l'optimiser pour les sites PME de 1000+ pages. Méthode complète, outils gratuits, gains mesurables sous 30 jours.
Google n’explore pas votre site à l’infini. Chaque jour, Googlebot alloue une quantité limitée de ressources à votre domaine. Cette enveloppe s’appelle le crawl budget.
Pour un site PME de moins de 500 pages, le sujet n’existe pas vraiment. Au-delà de 1000 URLs — site e-commerce, blog volumineux, site institutionnel avec catalogue — le crawl budget devient un levier SEO majeur.
Un site mal optimisé peut voir Googlebot gaspiller 70 % de son budget sur des pages inutiles (filtres, paramètres, doublons). Pendant ce temps, vos pages stratégiques attendent leur tour.
Voici la méthode que nous utilisons chez Fix SEO pour auditer et optimiser le crawl budget des sites PME. Approche pragmatique, outils gratuits, gains mesurables sous 30 jours.
Qu’est-ce que le crawl budget exactement
Le crawl budget est la combinaison de deux facteurs définis par Google :
- Crawl rate limit : la vitesse maximale à laquelle Googlebot peut explorer sans dégrader votre serveur
- Crawl demand : l’intérêt que Google porte à vos URLs (popularité, fraîcheur, qualité perçue)
Concrètement, c’est le nombre d’URLs que Googlebot va visiter sur votre site sur une période donnée. Pour un site PME standard, comptez 500 à 5000 requêtes par jour. Pour un gros e-commerce, jusqu’à 100 000 requêtes quotidiennes.
Ces chiffres ne sont pas figés. Google augmente le budget des sites rapides, populaires et bien structurés. Il le réduit pour les sites lents ou de mauvaise qualité.
Le piège classique
Un site mal configuré peut générer 50 000 URLs uniques alors qu’il ne compte que 800 pages réelles. Causes typiques :
- Filtres de navigation à facettes (couleur, taille, marque, prix)
- Paramètres de tri (
?sort=price&order=asc) - Sessions et tracking (
?session=xyz,?utm_source=...) - Pagination infinie (
?page=42,?page=43) - Calendriers, archives par mois ou par jour
Sur ces 50 000 URLs, Google va explorer un échantillon — souvent les moins utiles. Vos vraies pages produit attendent.
Comment mesurer son crawl budget actuel
Trois sources de données, toutes gratuites.
1. Google Search Console — rapport Statistiques sur l’exploration
Dans GSC, allez dans Paramètres > Statistiques sur l’exploration. Vous obtenez :
- Le nombre total de requêtes par jour sur les 90 derniers jours
- La taille moyenne téléchargée par requête (en Ko)
- Le temps de réponse moyen (en ms)
- La répartition par type de fichier, type d’agent, statut HTTP
Notez vos chiffres de référence. Une baisse durable de 30 % est un signal d’alerte.
2. Logs serveur
Les logs Apache ou Nginx contiennent chaque visite de Googlebot. Filtrez par User-Agent: Googlebot sur 30 jours. Vous découvrez :
- Quelles URLs Google explore le plus
- Combien de fois Googlebot tape sur des pages 404 ou redirigées
- La répartition entre pages utiles et pages parasites
Pour une PME sans accès direct aux logs, un outil comme Screaming Frog Log File Analyser (99 £/an) automatise l’analyse. Gratuit en version limitée.
3. Crawl simulé
Lancez Screaming Frog en mode crawl complet (gratuit jusqu’à 500 URLs). Comparez :
- Nombre d’URLs crawlées vs nombre de pages dans votre sitemap
- Nombre d’URLs en
noindexou bloquées par robots.txt - Profondeur moyenne (clics depuis la home)
Un écart de plus de 30 % entre le crawl et le sitemap indique un gaspillage de budget.
Les 7 leviers d’optimisation prioritaires
Voici les sept actions qui donnent 80 % des résultats sur l’optimisation du crawl budget.
Levier 1 — Nettoyer le robots.txt
Bloquez explicitement tout ce qui n’a pas vocation à être indexé : pages admin, recherche interne, paniers, comparateurs, filtres complexes.
Exemple pour un e-commerce :
User-agent: *
Disallow: /search
Disallow: /cart
Disallow: /account
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?utm_
Attention : bloquer dans robots.txt n’empêche pas l’indexation si la page est liée ailleurs. Pour interdire l’indexation, utilisez noindex dans la balise meta.
Levier 2 — Gérer les paramètres d’URL
Trois approches selon votre stack :
noindex+ canonical : sur les pages avec paramètres non pertinents, ajoutez<meta name="robots" content="noindex">et un canonical vers la version propre- Robots.txt : bloquer les patterns d’URL inutiles (
Disallow: /*?sort=) - Rendu côté serveur : ne pas générer ces URLs côté HTML
Sur un site e-commerce avec 5 filtres × 4 valeurs chacun, vous passez de 1 024 combinaisons à 1 seule URL utile.
Levier 3 — Corriger les chaînes de redirection
Chaque redirection 301 consomme une requête de Googlebot. Une chaîne A → B → C → D consomme 4 requêtes pour atteindre la page finale.
Auditez vos redirections avec Screaming Frog (rapport Redirects). Remplacez chaque chaîne par une redirection directe A → D.
Sur un site qui a vécu une refonte, les chaînes peuvent représenter 15 % du gaspillage. Voir notre guide sur la gestion des 404 et redirections 301.
Levier 4 — Éliminer les erreurs 404 récurrentes
Googlebot revient régulièrement sur les URLs en 404 pour vérifier si elles existent à nouveau. Chaque retour coûte une requête.
Deux options :
- Rediriger en 301 vers la page la plus pertinente si elle existe
- Renvoyer un statut 410 Gone (« volontairement supprimée ») pour dire à Google d’arrêter de venir
La 410 réduit drastiquement les retours de Googlebot sur ces URLs en 4 à 6 semaines.
Levier 5 — Optimiser le sitemap.xml
Le sitemap est la liste prioritaire de Google. S’il contient des URLs en 404, en redirection ou en noindex, vous gaspillez du crawl.
Règles :
- Uniquement des URLs en statut 200, indexables, canoniques
- Maximum 50 000 URLs par fichier (sinon, séparer en plusieurs sitemaps)
- Date
lastmodà jour à chaque modification - Soumis à Search Console et référencé dans le robots.txt
Notre guide complet sur le sitemap XML pour PME détaille la procédure.
Levier 6 — Accélérer le temps de réponse serveur
Google adapte la fréquence d’exploration au temps de réponse. Un serveur à 200 ms reçoit plus de visites qu’un serveur à 1500 ms.
Visez un TTFB (Time To First Byte) sous 500 ms. Au-delà de 1 seconde, Google ralentit son exploration pour ne pas vous dégrader.
Leviers concrets : cache serveur (Redis, Memcached), CDN (Cloudflare gratuit), hébergement adapté au volume.
Levier 7 — Renforcer le maillage interne
Les pages bien maillées sont explorées plus souvent. Une page accessible depuis la home en 1 clic est crawlée 5 à 10 fois plus qu’une page à 5 clics.
Méthode :
- Page stratégique = liée depuis au moins 5 autres pages internes
- Pages secondaires regroupées en silos thématiques avec page mère
- Fil d’Ariane sur toutes les pages avec schema BreadcrumbList
Cas pratique : e-commerce de 12 000 références
Un client e-commerce nous contacte. Diagnostic initial : 8 000 visites Googlebot par jour, mais seulement 1 200 produits dans l’index Google sur 12 000 disponibles.
Analyse des logs : 67 % du crawl consommé par les URLs de filtres (?couleur=rouge&taille=M).
Actions menées en 4 semaines :
- Blocage des paramètres de filtres dans robots.txt
noindexsur les pages de pagination au-delà de la page 3- Refonte du sitemap pour ne contenir que les fiches produit
- Réduction du TTFB de 1200 ms à 350 ms (cache Redis)
- Maillage : ajout de blocs « produits similaires » sur chaque fiche
Résultats à J+45 :
- Crawl utile (fiches produits) passé de 33 % à 78 %
- Indexation : 9 400 produits dans l’index contre 1 200 au départ
- Trafic organique : +52 % sur 90 jours
Ce qu’il faut surveiller en continu
Une fois optimisé, le crawl budget se contrôle avec un reporting mensuel léger. Trois métriques :
- Nombre de requêtes Googlebot par jour (rapport GSC) : doit rester stable ou monter
- Pages indexées / pages soumises (rapport GSC Couverture) : visez 95 %
- Statut 200 sur les pages stratégiques : zéro tolérance pour les 404 et redirections internes
Une dérive de plus de 20 % sur l’un de ces indicateurs justifie un audit ciblé. Pour comprendre pourquoi des pages restent hors de l’index, lisez notre article sur l’indexation Google et les pages non indexées.
Les erreurs courantes à éviter
Trois erreurs que nous voyons régulièrement chez les PME :
Erreur 1 — bloquer trop large dans robots.txt. Bloquer /produits/ pour éviter les filtres bloque aussi vos fiches produits. Toujours tester avec l’outil GSC « Inspection de l’URL ».
Erreur 2 — confondre noindex et disallow. Disallow dans robots.txt empêche le crawl mais pas l’indexation si la page est liée ailleurs. noindex empêche l’indexation. Les deux ne s’utilisent pas en même temps sur la même URL.
Erreur 3 — ignorer les logs serveur. Sans analyse de logs, vous optimisez à l’aveugle. Un crawl simulé ne montre pas ce que Googlebot fait réellement chez vous.
Faut-il sous-traiter l’optimisation du crawl
Pour un site de moins de 1 000 pages, l’optimisation se fait en interne avec un dev orienté SEO. Comptez 2 à 4 jours de travail.
Pour un site de 10 000+ pages avec analyse de logs serveur, l’expertise externe se justifie. Coût marché : 1 500 à 4 000 €.
Chez Fix SEO, notre prestation d’audit et optimisation du crawl budget démarre à 1 290 € HT pour les sites jusqu’à 5 000 pages. Livraison sous 10 jours ouvrés avec rapport, plan d’action et accompagnement à la mise en œuvre.
En résumé
Le crawl budget n’est pas un sujet pour les petits sites. Mais dès que vous passez la barre des 1 000 pages, c’est l’un des trois leviers SEO les plus rentables — devant le netlinking et la rédaction d’articles.
Méthode : auditer (logs + GSC + crawl simulé), prioriser, agir sur les 7 leviers, mesurer à 30 et 60 jours. Sur les sites e-commerce, les gains de trafic organique atteignent fréquemment 40 à 70 % en 3 mois.
Si vous voulez qu’on regarde vos logs serveur pour vous, contactez-nous via la page de contact. On vous dit en 48h si le crawl budget est un sujet chez vous, et combien ça coûte de le régler.
Questions fréquentes
À partir de combien de pages le crawl budget devient un sujet ?
+
En pratique, les problèmes de crawl budget apparaissent au-delà de 1000 URLs. En dessous, Google explore facilement tout votre site. Au-delà de 10 000 pages, l'optimisation devient critique.
Comment savoir si Google a un problème de crawl sur mon site ?
+
Le rapport Statistiques sur l'exploration de Google Search Console donne le nombre de requêtes par jour, le temps de réponse moyen et les erreurs. Une chute de 30 % du nombre de requêtes ou un temps de réponse au-dessus de 1 seconde indiquent un problème.
Le crawl budget influence-t-il directement les positions ?
+
Indirectement. Une page non crawlée n'est pas indexée, et une page non indexée ne se positionne pas. Le crawl budget ne change pas le classement d'une page déjà bien explorée.
Faut-il bloquer des sections du site pour économiser le crawl ?
+
Oui, sur les sites e-commerce et les sites à fort volume. Bloquer les filtres de navigation à facettes, les pages de pagination profondes et les paramètres de tri économise 40 à 70 % du budget.
sur le même silo.
Erreurs 404 et redirections 301 : la bonne méthode
Gérer correctement les erreurs 404 et mettre en place des redirections 301 sans pénaliser votre SEO. Méthode et outils chiffrés pour PME.
Lire l'article → SEO techniqueSitemap.xml : créer et soumettre le sien à Google
Sitemap.xml pour PME : génération, structure, soumission à Search Console. Avec ou sans plugin, méthode chiffrée et reproductible.
Lire l'article → SEO techniqueSchema.org / JSON-LD : le guide pratique pour PME
Schema.org pour PME : Organization, Product, FAQ, BreadcrumbList. Comment les ajouter sans dev, avec exemples concrets en JSON-LD.
Lire l'article →