Cloudflare bloque les IA : le web change de camp

Cloudflare bloque les IA : le web change de camp

Cloudflare filtre une part immense du trafic web mondial. C’est de cette position qu’il vient d’annoncer une bascule : bloquer par défaut les robots qui entraînent les IA. Le geste ressemble à une victoire des éditeurs, un rempart enfin dressé contre les modèles qui aspirent le web sans rien payer.

Il déplace pourtant le pouvoir plus qu’il ne le rend aux créateurs. En se plaçant devant des millions de sites, Cloudflare ne protège pas d’abord les auteurs : il devient le poste de péage entre le web et les modèles. On a longtemps débattu de qui possède les textes ; le levier décisif est ailleurs, dans le contrôle du robinet par lequel ces textes alimentent une IA. Ce robinet, Cloudflare vient de poser la main dessus.

Un réglage technique à la place du tribunal

Jusqu’ici, se protéger des robots d’IA relevait du bricolage : un fichier robots.txt qu’on peut ignorer, des poursuites longues et incertaines, une option à cocher que peu activaient. Cloudflare, par sa position devant tant de sites, transforme ce combat juridique en simple réglage technique.

À partir du 15 septembre 2026, les nouveaux clients et les nouveaux sites basculeront sur un réglage clair : autoriser l’indexation pour la recherche, mais bloquer l’entraînement et l’usage par des agents sur les pages qui affichent de la publicité. Les comptes gratuits y passeront aussi, sauf à se désinscrire avant la date. Les robots « mixtes », ceux qui indexent pour un moteur et entraînent un modèle dans le même mouvement, seront eux bloqués d’office sur ces pages.

Le glissement est plus profond qu’il n’y paraît. Ce n’est plus au tribunal de trancher qui a le droit d’apprendre sur vos textes, c’est à une infrastructure privée, par défaut, à l’échelle de millions de sites d’un coup.

La cible réelle porte un nom : Google

L’argument que met en avant Matthew Prince, cofondateur et patron de Cloudflare, dit tout : « le plus grand moteur de recherche dispose d’environ deux fois plus d’informations que les principales entreprises d’IA, parce qu’il rend difficile de rester visible sans être aussi utilisé pour l’IA ». Traduction : Google indexe pour son moteur et nourrit Gemini avec le même robot, et refuse de séparer les deux.

Un éditeur peut bien activer Google-Extended pour tenir ses contenus à l’écart de l’entraînement. Mais s’il veut apparaître dans l’AI Mode, ce mode de réponses génératives, il n’a plus le choix : accepter l’un revient à accepter l’autre. C’est ce couplage que Cloudflare attaque. En bloquant les robots mixtes par défaut, il force la main aux acteurs qui refusent de distinguer recherche et entraînement.

Autrement dit, ce coup ne vise pas d’abord OpenAI ni Anthropic. Ces deux-là séparent déjà leur robot d’entraînement, GPTBot et ClaudeBot, de leur robot de recherche : un site peut refuser d’alimenter leurs modèles sans pour autant disparaître de leurs réponses. Il vise celui qui a le plus à perdre à devoir dissocier ses usages : le géant qui tient déjà l’entrée du web.

De la page vue à la réponse générée

L’autre pièce du dossier est passée plus discrètement, et c’est peut-être la plus lourde de conséquences. Le mécanisme « Pay Per Crawl », lancé en 2025, facturait l’accès au moment où un robot venait lire une page. Il devient « Pay Per Use » et déplace le point de facturation : le propriétaire du site est désormais rémunéré quand son contenu apparaît dans la réponse d’un assistant IA.

Ce déplacement acte une réalité que le web publicitaire refusait de regarder. Historiquement, le trafic signifiait des yeux devant une publicité ou un abonnement payé. Quand une IA visite un site à votre place pour vous en restituer la substance, cette économie s’effondre : la page génère de la valeur sans jamais être vue. En facturant l’apparition dans la réponse plutôt que la visite, Cloudflare tente de recoller le paiement à l’endroit où la valeur se crée aujourd’hui.

Pour l’instant, l’édifice tient sur peu de monde : deux partenaires cités, Ceramic.AI et You.com. Un péage n’a de sens que si les poids lourds acceptent d’y passer. Rien ne dit qu’ils le feront.

Le nouveau fossé se joue sur l’accès aux données

Pour les équipes qui entraînent ou branchent des modèles sur le web ouvert, le message est net : la donnée fraîche cesse d’être un bien gratuit et illimité. Un modèle qui s’appuie sur la récupération en temps réel, un agent qui va lire des sites pour répondre, un pipeline d’entraînement nourri au web scraping : tous rencontreront demain une couche de contrôle qu’ils ne maîtrisent pas.

Deux effets se dessinent. D’abord, la donnée accessible risque de se scinder entre un web « propre » sous licence, payant, et un web bloqué par défaut. Ensuite, ceux qui possèdent déjà d’immenses corpus, ou des accords signés, prennent une avance difficile à rattraper. Le fossé ne se creuse plus sur la taille des modèles, mais sur l’accès à la matière première.

Il reste une inconnue de taille, et elle est politique autant que technique. Un acteur privé qui décide, par défaut, de ce qui peut ou non nourrir une intelligence artificielle concentre un pouvoir que personne ne lui a formellement confié. On applaudit aujourd’hui parce qu’il freine des IA jugées trop gourmandes. L’épreuve viendra le jour où ce même interrupteur servira un autre intérêt que le nôtre.

Sources

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *