Crawlers IA : 106 millions de requêtes pour un seul site

Crawlers IA : 106 millions de requêtes pour un seul site

En épluchant ses propres journaux serveur agrégés entre février 2025 et mai 2026, un média francophone spécialisé dans l’intelligence artificielle a fini par mettre un nombre sur le trafic des robots qui le moissonnent : sur seize mois, ClaudeBot, le robot d’Anthropic, lui a adressé 106 154 885 requêtes. Le site a publié lui-même ce décompte.

Un nombre pareil claque, mais il ne dit rien tant qu’on ne l’a pas décomposé. D’où sort-il ? Que mesure-t-il vraiment ? Et que vaut-il une fois remis à l’échelle d’une infrastructure ?

D’où sort ce nombre

Jusqu’à l’automne 2025, ClaudeBot était un visiteur anecdotique : 356 requêtes en octobre, 35 en novembre. Puis décembre fait basculer la courbe. Le robot passe d’un coup à 12,5 millions de requêtes mensuelles, atteint près de 26 millions en avril 2026, avant de redescendre à 7,1 millions en mai.

Le total des seize mois tient dans une poignée de mois récents. Autrement dit, le « 106 millions » n’est pas un flux régulier : c’est la trace d’un changement de régime, concentré sur l’hiver et le printemps 2026. Sur la même période, GPTBot (le robot d’OpenAI) reste sous les 4,5 millions mensuels. L’écart est d’un ordre de grandeur. À l’échelle du Web, pourtant, les deux robots font jeu égal : selon les relevés de Cloudflare, ClaudeBot et GPTBot s’échangent la première place de mois en mois, ClaudeBot devant en avril 2026, GPTBot en mai. L’écart observé ici tient donc à la structure du site, pas à un appétit propre à Anthropic.

Ce que le chiffre mesure vraiment

Un crawler ne « lit » pas un site comme un humain. Il énumère des URL. Et c’est là que le compteur s’emballe.

Le site en question revendique environ 10 000 articles, plusieurs milliers de fiches d’acteurs, plus de 4 000 pages thématiques, le tout décliné en quinze langues. Multipliez les pages de tags, les versions linguistiques et la pagination, et vous obtenez non pas 10 000 destinations, mais des centaines de milliers de combinaisons d’URL.

Le détail le plus parlant : sur la première quinzaine de juin 2026, près de 90 % des requêtes de ClaudeBot visaient des pages thématiques, pas les articles eux-mêmes. Le robot ne cherche pas les contenus populaires. Il balaie méthodiquement l’arborescence, combinaison par combinaison.

Le chiffre ne mesure donc pas une soif de contenu éditorial. Il mesure une surface technique : le nombre d’adresses qu’un site expose à un robot qui ne sait pas s’arrêter.

Ce qu’il masque

Brut, le nombre suggère un pillage massif. Ramené au temps, il se dégonfle un peu. 106 millions sur seize mois, c’est en moyenne autour de 2,7 requêtes par seconde. Un serveur correctement configuré encaisse ça sans broncher. Plus de 99 % des requêtes ont d’ailleurs reçu une réponse normale (code HTTP 200), et le site dit n’avoir jamais bloqué ni limité ces accès.

La moyenne ment pourtant dans l’autre sens. Le trafic des crawlers arrive par rafales. Les 9 et 10 juin 2026, à la suite d’une refonte du site, ClaudeBot a expédié 66 466 puis 102 316 requêtes en deux jours avant de revenir à un rythme bien plus calme. Une refonte agit comme un signal : nouvelles URL, nouvelle structure, et le robot reprend tout à zéro.

C’est là que se loge le coût d’infrastructure. Pas dans la moyenne lissée, mais dans les pics qui coïncident avec les moments où votre serveur est déjà sous tension.

La donnée qui manque au calcul

Reste la question que le compteur de requêtes ne peut pas trancher seul : qu’est-ce qui revient en échange ?

Pendant vingt ans, le Web a fonctionné sur un troc implicite. Les robots des moteurs indexent vos pages, et en retour ils vous renvoient des lecteurs. L’éditeur paie le coût du crawl parce qu’il achète de la visibilité. Le contrat tient parce que les deux colonnes du tableau sont remplies.

Avec les modèles de langage, la première colonne explose pendant que la seconde reste à documenter. Le robot lit, aspire, résume, alimente un assistant qui répondra directement à l’utilisateur, souvent sans le renvoyer vers la source. Le média à l’origine de ces mesures a justement entrepris de comparer, sur quatorze jours, les requêtes reçues de chaque famille de robots avec les visiteurs réellement renvoyés. C’est ce ratio, et non le nombre de requêtes, qui dira si l’échange reste équitable.

Trois leçons pour les éditeurs de sites

Le réflexe « les bots IA pillent le web » est une posture morale. Ce relevé le transforme en problème mesurable, et c’est sa vraie valeur.

Trois enseignements concrets. D’abord, votre exposition au crawl dépend moins de votre volume de contenu que de votre surface d’URL : facettes, filtres, paginations et versions linguistiques démultiplient les passages bien plus que vos articles. Ensuite, surveillez les rafales post-déploiement plutôt que la moyenne mensuelle : c’est là que la facture serveur se joue. Enfin, l’indicateur à instrumenter n’est pas le nombre de requêtes entrantes, mais le trafic renvoyé par requête, robot par robot. Sans cette colonne, impossible de décider qui mérite un accès et qui mérite un seuil de débit dans votre fichier robots.txt.

Un seul chiffre ne tranche pas un débat de société. Mais 106 millions de requêtes, posé noir sur blanc dans des journaux serveur, fait passer la conversation du registre de l’indignation à celui de la comptabilité. Et c’est précisément ce qui manquait pour commencer à négocier.

Sources

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *