Alignement « robuste » d'OpenAI : où sont les chiffres ?

Zéro. C’est le nombre de métriques de sécurité chiffrées que vous trouverez dans le nouveau travail d’alignement d’OpenAI. Une page de recherche publiée le 18 juin, relayée sur le compte officiel de l’entreprise, une promesse forte (des modèles qui « transportent » des comportements bénéfiques hors de leur domaine d’entraînement et les tiennent face à des invites adversariales), des courbes et des dizaines de benchmarks cités. Mais pas un seul chiffre pour dire l’ampleur réelle du gain de robustesse.

Pour qui orchestre l’IA au quotidien, ce détail n’est pas anodin. Une affirmation de robustesse sans métrique n’est pas un résultat : c’est une intention.

Ce que le chiffre absent devait mesurer

Reprenons la promesse mot pour mot. OpenAI dit avoir « testé si l’alignement persistait sous pression » et observé que le modèle était « plus difficile à orienter vers un comportement nuisible avec des invites adversariales, tout en restant réactif aux instructions utiles ».

@OpenAI sur X

Traduit en langage d’évaluation, cette phrase appelle au moins deux nombres. Un taux de réussite des attaques (à quelle fréquence une invite adversariale fait-elle déraper le modèle ?), et un taux de faux refus (à quelle fréquence le modèle, devenu prudent, refuse-t-il une demande parfaitement légitime ?). C’est le couple classique de tout durcissement de modèle : on gagne en résistance, on perd en docilité. Le bon résultat se lit dans l’écart entre les deux, avant et après entraînement.

Aucun de ces deux chiffres n’est donné. OpenAI parle de « preuves préliminaires » d’une amélioration. Le mot fait tout le travail que les nombres devraient faire.

« Préliminaire » : que vaut ce mot remis en contexte ?

Un ordre de grandeur aide à situer l’enjeu. La littérature publique sur les attaques par jailbreak rapporte régulièrement des taux de contournement à deux chiffres, parfois bien au-delà de la moitié des tentatives sur des modèles non durcis, selon la batterie d’attaques employée. Annoncer un modèle « plus difficile à orienter » sans dire de combien, c’est décrire un déplacement sans en donner l’amplitude.

@OpenAI sur X

Passe-t-on de 60 % de jailbreaks réussis à 50 % ? À 5 % ? La première marche est cosmétique, la seconde changerait la donne. Entre les deux, le même adjectif (« plus robuste ») recouvre des réalités sans commune mesure. Et « préliminaire » ajoute une seconde inconnue : sur quel volume de tests, avec quelle marge d’erreur ? Un gain réel mais mesuré sur trente exemples ne dit rien de ce qui se passera en production, face à des millions de requêtes et à des attaquants qui adaptent leurs invites en continu.

Ce que la formulation masque

Le sujet technique, derrière la communication, est la généralisation. OpenAI ne revendique pas seulement un modèle qui refuse mieux les requêtes piégées ; elle revendique des « traits bénéfiques » qui se transportent dans des situations nouvelles, hors du domaine d’entraînement. C’est l’inverse du réflexe habituel, qui consiste à patcher des comportements au cas par cas.

L’ambition est juste. À mesure que les modèles prennent en charge des tâches longues, multi-étapes et à plus haut risque, on ne peut plus auditer chaque situation une à une : il faut que la prudence tienne là où personne n’a entraîné le modèle à l’avoir. Mais c’est précisément la propriété la plus difficile à prouver. Montrer qu’un comportement résiste sur le jeu de test d’entraînement est facile ; montrer qu’il résiste hors distribution suppose des protocoles publics, des jeux d’attaques tiers et des chiffres reproductibles. En face, les system cards publiques d’Anthropic chiffrent, modèle après modèle, la résistance aux attaques et les refus abusifs : la barre existe, et elle est publique. La généralisation se démontre, elle ne se déclare pas.

@OpenAI sur X

Ce que le praticien doit en retenir

Trois réflexes concrets, pour quiconque intègre ces modèles dans une chaîne de production.

Ne pas confondre annonce de recherche et garantie produit. Un travail « préliminaire » n’autorise aucun relâchement sur vos propres garde-fous applicatifs.
Continuer à mesurer chez soi. Le seul taux de jailbreak qui engage votre responsabilité est celui que vous constatez sur vos cas d’usage, avec vos invites réelles.
Surveiller le faux refus autant que la résistance. Un modèle durci qui se met à refuser des demandes anodines dégrade l’expérience sans qu’aucune alerte de sécurité ne se déclenche.

Reconnaissons à OpenAI d’avoir nommé le bon problème : la robustesse, pas la docilité de façade. Transporter un comportement bénéfique hors de son domaine d’entraînement et le tenir sous pression adversariale est l’un des verrous sérieux de la décennie. Mais un verrou se mesure à la force qu’il faut pour le forcer. Tant que cette force n’est pas chiffrée (taux d’attaque, faux refus, taille de l’échantillon, conditions du test), l’annonce reste une direction de travail, pas une preuve. Le prochain jalon utile ne sera pas un nouveau fil sur X. Ce sera un tableau de chiffres.

Alignement « robuste » d’OpenAI : où sont les chiffres ?

Ce que le chiffre absent devait mesurer

« Préliminaire » : que vaut ce mot remis en contexte ?

Ce que la formulation masque

Ce que le praticien doit en retenir

Sources

Un autre article ?

DeepMind ne fait plus confiance à ses propres IA

Anthropic coupe un client sur ordre de Washington

ChatGPT santé : et si l’IA gagnait surtout le triage ?

Laisser un commentaire Annuler la réponse