Aller au contenu
[LIVE] FIX SEO POSITION #1 SUR 412 MOTS-CLÉS TRAFIC ORGANIQUE ▲ +247% YoY 50+ PME ACCOMPAGNÉES AUDIT EN 72H BASÉS EN FRANCE [LIVE] FIX SEO POSITION #1 SUR 412 MOTS-CLÉS TRAFIC ORGANIQUE ▲ +247% YoY 50+ PME ACCOMPAGNÉES AUDIT EN 72H BASÉS EN FRANCE
SEO technique · 9 min de lecture

Crawl budget : qu'est-ce que c'est et comment l'optimiser

Comprendre le crawl budget Google et l'optimiser pour les sites PME de 1000+ pages. Méthode complète, outils gratuits, gains mesurables sous 30 jours.

Équipe Fix SEO
Fix SEO · agence SEO PME
Crawl budget — guide Fix SEO

Google n’explore pas votre site à l’infini. Chaque jour, Googlebot alloue une quantité limitée de ressources à votre domaine. Cette enveloppe s’appelle le crawl budget.

Pour un site PME de moins de 500 pages, le sujet n’existe pas vraiment. Au-delà de 1000 URLs — site e-commerce, blog volumineux, site institutionnel avec catalogue — le crawl budget devient un levier SEO majeur.

Un site mal optimisé peut voir Googlebot gaspiller 70 % de son budget sur des pages inutiles (filtres, paramètres, doublons). Pendant ce temps, vos pages stratégiques attendent leur tour.

Voici la méthode que nous utilisons chez Fix SEO pour auditer et optimiser le crawl budget des sites PME. Approche pragmatique, outils gratuits, gains mesurables sous 30 jours.

Qu’est-ce que le crawl budget exactement

Le crawl budget est la combinaison de deux facteurs définis par Google :

  • Crawl rate limit : la vitesse maximale à laquelle Googlebot peut explorer sans dégrader votre serveur
  • Crawl demand : l’intérêt que Google porte à vos URLs (popularité, fraîcheur, qualité perçue)

Concrètement, c’est le nombre d’URLs que Googlebot va visiter sur votre site sur une période donnée. Pour un site PME standard, comptez 500 à 5000 requêtes par jour. Pour un gros e-commerce, jusqu’à 100 000 requêtes quotidiennes.

Ces chiffres ne sont pas figés. Google augmente le budget des sites rapides, populaires et bien structurés. Il le réduit pour les sites lents ou de mauvaise qualité.

Le piège classique

Un site mal configuré peut générer 50 000 URLs uniques alors qu’il ne compte que 800 pages réelles. Causes typiques :

  • Filtres de navigation à facettes (couleur, taille, marque, prix)
  • Paramètres de tri (?sort=price&order=asc)
  • Sessions et tracking (?session=xyz, ?utm_source=...)
  • Pagination infinie (?page=42, ?page=43)
  • Calendriers, archives par mois ou par jour

Sur ces 50 000 URLs, Google va explorer un échantillon — souvent les moins utiles. Vos vraies pages produit attendent.

Comment mesurer son crawl budget actuel

Trois sources de données, toutes gratuites.

1. Google Search Console — rapport Statistiques sur l’exploration

Dans GSC, allez dans Paramètres > Statistiques sur l’exploration. Vous obtenez :

  • Le nombre total de requêtes par jour sur les 90 derniers jours
  • La taille moyenne téléchargée par requête (en Ko)
  • Le temps de réponse moyen (en ms)
  • La répartition par type de fichier, type d’agent, statut HTTP

Notez vos chiffres de référence. Une baisse durable de 30 % est un signal d’alerte.

2. Logs serveur

Les logs Apache ou Nginx contiennent chaque visite de Googlebot. Filtrez par User-Agent: Googlebot sur 30 jours. Vous découvrez :

  • Quelles URLs Google explore le plus
  • Combien de fois Googlebot tape sur des pages 404 ou redirigées
  • La répartition entre pages utiles et pages parasites

Pour une PME sans accès direct aux logs, un outil comme Screaming Frog Log File Analyser (99 £/an) automatise l’analyse. Gratuit en version limitée.

3. Crawl simulé

Lancez Screaming Frog en mode crawl complet (gratuit jusqu’à 500 URLs). Comparez :

  • Nombre d’URLs crawlées vs nombre de pages dans votre sitemap
  • Nombre d’URLs en noindex ou bloquées par robots.txt
  • Profondeur moyenne (clics depuis la home)

Un écart de plus de 30 % entre le crawl et le sitemap indique un gaspillage de budget.

Les 7 leviers d’optimisation prioritaires

Voici les sept actions qui donnent 80 % des résultats sur l’optimisation du crawl budget.

Levier 1 — Nettoyer le robots.txt

Bloquez explicitement tout ce qui n’a pas vocation à être indexé : pages admin, recherche interne, paniers, comparateurs, filtres complexes.

Exemple pour un e-commerce :

User-agent: *
Disallow: /search
Disallow: /cart
Disallow: /account
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?utm_

Attention : bloquer dans robots.txt n’empêche pas l’indexation si la page est liée ailleurs. Pour interdire l’indexation, utilisez noindex dans la balise meta.

Levier 2 — Gérer les paramètres d’URL

Trois approches selon votre stack :

  • noindex + canonical : sur les pages avec paramètres non pertinents, ajoutez <meta name="robots" content="noindex"> et un canonical vers la version propre
  • Robots.txt : bloquer les patterns d’URL inutiles (Disallow: /*?sort=)
  • Rendu côté serveur : ne pas générer ces URLs côté HTML

Sur un site e-commerce avec 5 filtres × 4 valeurs chacun, vous passez de 1 024 combinaisons à 1 seule URL utile.

Levier 3 — Corriger les chaînes de redirection

Chaque redirection 301 consomme une requête de Googlebot. Une chaîne A → B → C → D consomme 4 requêtes pour atteindre la page finale.

Auditez vos redirections avec Screaming Frog (rapport Redirects). Remplacez chaque chaîne par une redirection directe A → D.

Sur un site qui a vécu une refonte, les chaînes peuvent représenter 15 % du gaspillage. Voir notre guide sur la gestion des 404 et redirections 301.

Levier 4 — Éliminer les erreurs 404 récurrentes

Googlebot revient régulièrement sur les URLs en 404 pour vérifier si elles existent à nouveau. Chaque retour coûte une requête.

Deux options :

  • Rediriger en 301 vers la page la plus pertinente si elle existe
  • Renvoyer un statut 410 Gone (« volontairement supprimée ») pour dire à Google d’arrêter de venir

La 410 réduit drastiquement les retours de Googlebot sur ces URLs en 4 à 6 semaines.

Levier 5 — Optimiser le sitemap.xml

Le sitemap est la liste prioritaire de Google. S’il contient des URLs en 404, en redirection ou en noindex, vous gaspillez du crawl.

Règles :

  • Uniquement des URLs en statut 200, indexables, canoniques
  • Maximum 50 000 URLs par fichier (sinon, séparer en plusieurs sitemaps)
  • Date lastmod à jour à chaque modification
  • Soumis à Search Console et référencé dans le robots.txt

Notre guide complet sur le sitemap XML pour PME détaille la procédure.

Levier 6 — Accélérer le temps de réponse serveur

Google adapte la fréquence d’exploration au temps de réponse. Un serveur à 200 ms reçoit plus de visites qu’un serveur à 1500 ms.

Visez un TTFB (Time To First Byte) sous 500 ms. Au-delà de 1 seconde, Google ralentit son exploration pour ne pas vous dégrader.

Leviers concrets : cache serveur (Redis, Memcached), CDN (Cloudflare gratuit), hébergement adapté au volume.

Levier 7 — Renforcer le maillage interne

Les pages bien maillées sont explorées plus souvent. Une page accessible depuis la home en 1 clic est crawlée 5 à 10 fois plus qu’une page à 5 clics.

Méthode :

  • Page stratégique = liée depuis au moins 5 autres pages internes
  • Pages secondaires regroupées en silos thématiques avec page mère
  • Fil d’Ariane sur toutes les pages avec schema BreadcrumbList

Cas pratique : e-commerce de 12 000 références

Un client e-commerce nous contacte. Diagnostic initial : 8 000 visites Googlebot par jour, mais seulement 1 200 produits dans l’index Google sur 12 000 disponibles.

Analyse des logs : 67 % du crawl consommé par les URLs de filtres (?couleur=rouge&taille=M).

Actions menées en 4 semaines :

  1. Blocage des paramètres de filtres dans robots.txt
  2. noindex sur les pages de pagination au-delà de la page 3
  3. Refonte du sitemap pour ne contenir que les fiches produit
  4. Réduction du TTFB de 1200 ms à 350 ms (cache Redis)
  5. Maillage : ajout de blocs « produits similaires » sur chaque fiche

Résultats à J+45 :

  • Crawl utile (fiches produits) passé de 33 % à 78 %
  • Indexation : 9 400 produits dans l’index contre 1 200 au départ
  • Trafic organique : +52 % sur 90 jours

Ce qu’il faut surveiller en continu

Une fois optimisé, le crawl budget se contrôle avec un reporting mensuel léger. Trois métriques :

  • Nombre de requêtes Googlebot par jour (rapport GSC) : doit rester stable ou monter
  • Pages indexées / pages soumises (rapport GSC Couverture) : visez 95 %
  • Statut 200 sur les pages stratégiques : zéro tolérance pour les 404 et redirections internes

Une dérive de plus de 20 % sur l’un de ces indicateurs justifie un audit ciblé. Pour comprendre pourquoi des pages restent hors de l’index, lisez notre article sur l’indexation Google et les pages non indexées.

Les erreurs courantes à éviter

Trois erreurs que nous voyons régulièrement chez les PME :

Erreur 1 — bloquer trop large dans robots.txt. Bloquer /produits/ pour éviter les filtres bloque aussi vos fiches produits. Toujours tester avec l’outil GSC « Inspection de l’URL ».

Erreur 2 — confondre noindex et disallow. Disallow dans robots.txt empêche le crawl mais pas l’indexation si la page est liée ailleurs. noindex empêche l’indexation. Les deux ne s’utilisent pas en même temps sur la même URL.

Erreur 3 — ignorer les logs serveur. Sans analyse de logs, vous optimisez à l’aveugle. Un crawl simulé ne montre pas ce que Googlebot fait réellement chez vous.

Faut-il sous-traiter l’optimisation du crawl

Pour un site de moins de 1 000 pages, l’optimisation se fait en interne avec un dev orienté SEO. Comptez 2 à 4 jours de travail.

Pour un site de 10 000+ pages avec analyse de logs serveur, l’expertise externe se justifie. Coût marché : 1 500 à 4 000 €.

Chez Fix SEO, notre prestation d’audit et optimisation du crawl budget démarre à 1 290 € HT pour les sites jusqu’à 5 000 pages. Livraison sous 10 jours ouvrés avec rapport, plan d’action et accompagnement à la mise en œuvre.

En résumé

Le crawl budget n’est pas un sujet pour les petits sites. Mais dès que vous passez la barre des 1 000 pages, c’est l’un des trois leviers SEO les plus rentables — devant le netlinking et la rédaction d’articles.

Méthode : auditer (logs + GSC + crawl simulé), prioriser, agir sur les 7 leviers, mesurer à 30 et 60 jours. Sur les sites e-commerce, les gains de trafic organique atteignent fréquemment 40 à 70 % en 3 mois.

Si vous voulez qu’on regarde vos logs serveur pour vous, contactez-nous via la page de contact. On vous dit en 48h si le crawl budget est un sujet chez vous, et combien ça coûte de le régler.

Questions fréquentes

À partir de combien de pages le crawl budget devient un sujet ?

+

En pratique, les problèmes de crawl budget apparaissent au-delà de 1000 URLs. En dessous, Google explore facilement tout votre site. Au-delà de 10 000 pages, l'optimisation devient critique.

Comment savoir si Google a un problème de crawl sur mon site ?

+

Le rapport Statistiques sur l'exploration de Google Search Console donne le nombre de requêtes par jour, le temps de réponse moyen et les erreurs. Une chute de 30 % du nombre de requêtes ou un temps de réponse au-dessus de 1 seconde indiquent un problème.

Le crawl budget influence-t-il directement les positions ?

+

Indirectement. Une page non crawlée n'est pas indexée, et une page non indexée ne se positionne pas. Le crawl budget ne change pas le classement d'une page déjà bien explorée.

Faut-il bloquer des sections du site pour économiser le crawl ?

+

Oui, sur les sites e-commerce et les sites à fort volume. Bloquer les filtres de navigation à facettes, les pages de pagination profondes et les paramètres de tri économise 40 à 70 % du budget.

Tags crawl budgetSEO techniqueindexationPME
→ on en parle ?

appliquer ça chez vous, on s'en charge.

Demander un audit gratuit ↗