45 000 prompts : Meta a sondé les garde-fous des IA rivales

L’essentiel

Meta a fait tester en secret ChatGPT, Gemini et Character.AI par des centaines de sous-traitants se faisant passer pour des mineurs, dans un projet interne baptisé « Cannes ».
En août 2025, plus de 45 000 prompts sensibles (automutilation, drogues, troubles alimentaires) ont été envoyés en une seule campagne, selon l’enquête de WIRED.
Aucune des entreprises visées n’était au courant : Character.AI y voit une violation de ses conditions d’utilisation, OpenAI enquête, Google dit n’avoir rien approuvé.

Pour savoir comment les chatbots de ses rivaux traitent un adolescent en crise, Meta n’a pas attendu leur autorisation : l’entreprise a payé des sous-traitants pour se faire passer pour des mineurs et sonder, à leur insu, les garde-fous de ChatGPT, Gemini et Character.AI. Une manœuvre qui tient moins de l’audit de sécurité que du renseignement concurrentiel.

Une opération montée comme du renseignement

Le dispositif, révélé par l’enquête de WIRED, portait un nom de code interne : « Cannes ». Confié au sous-traitant Covalen, il est resté actif au moins jusqu’en avril 2026. Des centaines de contractuels ont créé de faux comptes avec des dates de naissance de mineurs, puis envoyé aux chatbots concurrents des prompts sur l’automutilation, les troubles alimentaires, la drogue, le suicide ou le sexe, en se plaçant dans la peau d’enfants en crise.

Les réponses des modèles étaient ensuite recopiées dans des tableurs. Sur une seule campagne, en août 2025, plus de 45 000 prompts ont été expédiés. On ne parle pas d’un échantillon de contrôle, mais d’une collecte industrielle, méthodique et documentée, portant sur les productions les plus sensibles d’OpenAI, de Google et de Character.AI.

Le red-teaming, mais retourné contre les autres

Le red-teaming (ces tests adverses qui consistent à pousser un modèle vers ses réponses les plus dangereuses pour en cartographier les failles) est une pratique légitime, et même indispensable. Chaque laboratoire le mène : sur SON propre modèle. C’est ainsi qu’on découvre qu’un garde-fou saute quand la question est reformulée, qu’un filtre cède sous un jeu de rôle, qu’une réponse dérape après plusieurs relances.

Ce que décrit l’enquête est d’une autre nature. Meta n’a pas audité ses propres systèmes : l’entreprise a cartographié, à grande échelle et sans les prévenir, les points de rupture des dispositifs de sécurité de ses concurrents. La nuance n’est pas cosmétique. Un red-teaming interne sert à réparer. Un red-teaming braqué sur le voisin sert à savoir où il craque, et cette connaissance-là n’a aucune raison de rester neutre.

@oesnadaki sur X

La défense qui ne répond pas à la question

Meta assume et parle de tests de sécurité responsables, conformes aux standards du secteur. L’entreprise précise n’avoir pas utilisé les réponses collectées pour entraîner ses modèles. La formule est habile, mais elle contourne l’essentiel : nul besoin d’entraîner un modèle sur ces données pour en tirer un avantage. Savoir précisément où et comment les garde-fous d’un concurrent lâchent, c’est déjà un actif stratégique : de quoi ajuster son propre discours sécurité, nourrir un argumentaire réglementaire, ou anticiper la prochaine polémique qui visera le voisin. Les documents examinés ne disent d’ailleurs pas ce que Meta a fait de cette matière.

Qui tient le crayon rouge des modèles des autres

Reste le contexte, qui n’est pas anodin. Meta sort d’un scandale où ses propres consignes internes autorisaient des échanges romantiques et sexualisés avec des mineurs, avant de fermer l’accès de ses personnages IA aux adolescents. Difficile, dans ces conditions, de recevoir l’entreprise en gardienne désintéressée de la sécurité enfantine.

Le problème de fond, lui, est réel et dépasse Meta : selon l’organisation britannique Internet Matters, 64 % des enfants de 9 à 17 ans ont déjà utilisé un chatbot IA, et 58 % des 9-12 ans s’en servent malgré un âge minimum fixé à 13 ans. Plusieurs drames l’ont rappelé, du suicide d’un utilisateur de 14 ans de Character.AI à la plainte, en Californie, des parents d’un adolescent de 16 ans contre OpenAI. Évaluer ces risques est un chantier légitime.

Mais justement : si cette évaluation devient un terrain d’affrontement entre géants, menée en secret par des sous-traitants sur les modèles des autres, alors c’est la gouvernance même de la sécurité IA qui se déplace. Character.AI, OpenAI et Google découvrent après coup qu’on a sondé leurs failles. Et personne, pour l’instant, ne peut dire qui devrait tenir ce crayon rouge braqué sur les systèmes du voisin, ni à qui appartiennent les cartes de failles qu’il produit.

Mon avis

Le plus troublant dans « Cannes » tient moins à l’entorse déontologique qu’à ce qu’elle préfigure : une norme. Le jour où sonder les garde-fous du concurrent devient une routine industrielle, la sécurité cesse d’être un bien commun pour devenir une arme de positionnement, et chaque laboratoire aura intérêt à connaître les points faibles des autres mieux que les siens. Je m’attends à ce que d’autres acteurs aient déjà leur propre « Cannes », simplement moins bien documenté. Le garde-fou qui manque n’est pas dans les modèles : il est dans les règles qui devraient encadrer ce qu’on a le droit de faire subir à ceux des autres.

45 000 prompts : Meta a sondé les garde-fous des IA rivales

Une opération montée comme du renseignement

Le red-teaming, mais retourné contre les autres

La défense qui ne répond pas à la question

Qui tient le crayon rouge des modèles des autres

Un autre article ?

L’IA a ciblé une école, et pourtant elle n’a pas halluciné

Fable 5 revient bardé de nouveaux classificateurs

ChatGPT à Brown : 50 fraudeurs, ou un examen périmé ?

Laisser un commentaire Annuler la réponse