MirrorCode : 19 jours pour qu’une IA reconstruise un logiciel

MirrorCode : 19 jours pour qu'une IA reconstruise un logiciel

Une IA a programmé sans interruption pendant 19 jours, pour un coût de 2 600 dollars, sur une seule tâche. Pas pour résoudre une énigme abstraite : pour reconstruire un logiciel entier, de zéro, sans jamais voir son code source. Le résultat n’est pas un coup d’éclat. C’est une mesure.

Le laboratoire Epoch AI vient de publier MirrorCode, un nouveau banc d’essai conçu avec METR. La question qu’il pose est plus retorse qu’elle n’en a l’air, et elle dit beaucoup sur ce que les agents de programmation savent vraiment faire.

Reconstruire à l’aveugle, c’est quoi au juste ?

Imaginez qu’on vous donne un programme qui fonctionne, qu’on vous montre tout ce qu’il produit en sortie, puis qu’on efface le code qui le fait tourner. Votre mission : le réécrire pour qu’il se comporte exactement comme l’original, au caractère près. C’est le principe de MirrorCode.

Les 25 logiciels cibles n’ont rien de jouets : utilitaires Unix, sérialisation de données, bio-informatique, interpréteurs, analyse statique, cryptographie, compression. Chaque solution générée par l’IA doit reproduire à l’identique la sortie du programme d’origine, y compris sur des tests de bout en bout cachés que le modèle ne voit jamais pendant son travail.

La différence de fond avec les bancs d’essai habituels tient au budget. Beaucoup d’entre eux plafonnent le coût à 1 ou 10 dollars par tâche, là où un humain mettrait des semaines. Epoch AI a levé ce verrou : une des plus grosses tâches a coûté 2 600 dollars pour une seule exécution, et l’IA a travaillé en continu pendant 19 jours, sans la moindre intervention humaine.

56 % en tête, et pourtant un mur

Au classement général, Claude Opus 4.7 arrive devant avec 56 % de tâches résolues. Suivent GPT-5.5 à 44 % et Gemini 3.1 Pro Preview à 32 %. L’exemple vitrine impressionne : Opus 4.7 a reconstruit gotree, une boîte à outils de bio-informatique d’environ 16 000 lignes de Go et plus de 40 commandes. Un ingénieur seul, sans IA, y passerait de 2 à 17 semaines selon les chercheurs. Le modèle a bouclé en 14 heures, pour 251 dollars.

Le chiffre est spectaculaire. Sauf qu’un exploit isolé renseigne peu : ce que MirrorCode éclaire, c’est le comportement de l’ensemble des modèles, pas la prouesse d’un seul.

Epoch AI répartit les tâches en trois catégories : petites, moyennes, grandes. Les petits programmes, comme uuid ou parseqsv, sont reconstruits de manière fiable par tous les modèles testés. Les plus grosses tâches, elles, mettent en échec absolument tout le monde. Aucun modèle n’en craque une seule.

Pourquoi l’échec en dit plus que le score

Le détail qui devrait retenir l’attention : même quand un modèle rate la reconstruction complète, il passe en général 90 % des tests, voire plus. Autrement dit, il sait faire l’essentiel, et bute sur la dernière marche. C’est exactement ce que MirrorCode est conçu pour mesurer.

La plupart des bancs d’essai récompensent le coup d’éclat : résoudre vite un problème bien délimité. MirrorCode mesure autre chose, l’endurance sur tâche longue. Tenir un cap pendant des jours, garder en tête une architecture entière, ne pas accumuler de petites dérives qui finissent par tout faire dérailler. C’est là que les agents flanchent.

Cette compétence-là pèse lourd dès qu’on confie un travail réel à une IA. Un agent capable d’écrire une fonction propre n’est pas forcément capable de mener un chantier de plusieurs jours sans supervision. Le score de 90 % aux tests masque précisément l’écart entre « presque fini » et « livré ». Et dans un logiciel, presque fini ne vaut rien.

Une progression rapide, deux pièges à garder en tête

La dynamique, elle, est nette. Les meilleurs modèles d’il y a un an n’auraient atteint qu’environ 30 % et seraient restés cantonnés à des programmes simples, type utilitaire de calendrier. En douze mois, le plafond s’est déplacé. Cette accélération recoupe un autre constat de METR, coauteur du banc d’essai : la durée des tâches qu’un agent mène seul double environ tous les sept mois.

Les coûts, en revanche, ne suivent aucune logique évidente. GPT-5.5 revient trois fois plus cher que GPT-5 pour les mêmes tâches, tandis qu’Opus 4.7 tourne trois fois moins cher qu’Opus 4.1. Avant de choisir un modèle pour un agent de longue haleine, le prix par tâche mérite donc un test réel, pas une extrapolation à partir de la génération précédente.

Reste une zone d’ombre que les chercheurs assument. Comme MirrorCode s’appuie sur des programmes open source, les modèles ont pu croiser le code d’origine pendant leur entraînement. Les tests initiaux suggèrent que les résultats ne sont pas dominés par la mémorisation, sans pour autant l’exclure totalement. C’est l’éternel angle mort des bancs d’essai bâtis sur du code public.

Pour limiter le biais et permettre les vérifications, Epoch AI a ouvert le code de son dispositif et 22 des 25 programmes cibles, soit 132 instances de tâches réparties sur six langages. Trois programmes restent privés, gardés pour les futurs tests.

Ce que le mur révèle

MirrorCode ne dit pas que les agents de programmation sont surcotés. Il dit où se situe leur frontière actuelle, et elle est plus précise que les annonces commerciales : ils excellent sur le court et le moyen, ils calent sur le très long. La barre des grandes tâches, infranchie par tous, est le thermomètre qui compte.

La prochaine génération de modèles franchira-t-elle ce mur, ou se contentera-t-elle de mieux réussir ce que les agents font déjà ? C’est la seule courbe qui méritera qu’on la surveille.

Sources

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *