
Un chercheur de Microsoft a programmé un réseau de neurones fonctionnel à l’intérieur de l’éditeur de cartes d’Age of Empires II, avec des chèvres en guise de bits. Internet a retenu la prouesse loufoque, le clin d’œil geek, la performance gratuite.
Sauf que le gag n’est qu’un emballage. Derrière la blague se cache une charge dirigée contre la moitié de la recherche actuelle sur les grands modèles de langage.
Des chèvres comme bits, un réseau qui apprend
Adrian de Wynter, chercheur chez Microsoft et à l’université d’York, a détourné l’éditeur de scénarios du jeu de stratégie sorti en 1999. Le principe est volontairement absurde : une chèvre sur l’herbe vaut 0, une chèvre sur un pont vaut 1. À partir de là, il assemble des portes logiques avec les outils de script du jeu, et utilise des rampes de glace pour empêcher les chèvres en attente de brouiller les calculs.
Le résultat tient en deux portes XNOR et une porte AND. Le mini-réseau apprend la fonction logique AND, comme un perceptron (le plus simple des neurones artificiels) qui ressemble, à l’écran, à un labyrinthe de murs où errent les chèvres-bits.
De Wynter pousse la démonstration plus loin dans l’annexe de son article. Il montre qu’en théorie, une version idéalisée du jeu peut répliquer n’importe quel ordinateur : le marché interne, qui échange des ressources contre de l’or avec un prix plafonné à 9 999, autorise un cycle économique perpétuel où les bâtiments servent de cellules mémoire et les fermes actives représentent l’état de calcul courant. Age of Empires II est, sur le papier, aussi puissant qu’un ordinateur complet.
Et si Boston pensait à votre place ?
C’est ici que la blague devient argument. Si l’on peut reconstruire un modèle de langage avec des chèvres, plaide de Wynter, on peut le faire avec des briques Lego. Ou avec les 667 000 habitants de Boston, qui s’enverraient par téléphone les étapes du calcul.
Les réponses seraient rigoureusement identiques à celles du modèle répliqué. Et personne, raisonnablement, ne dirait que la ville de Boston ressent de l’empathie ou de la peur sous prétexte que ses habitants exécutent l’arithmétique d’un modèle de langage.
De Wynter ne fait que rejouer un classique de la philosophie de l’esprit : le cerveau chinois, que le philosophe Ned Block a popularisé en 1978. Une nation entière réorganisée pour simuler un cerveau, chaque habitant tenant le rôle d’un neurone : le système se comporterait comme un esprit sans, pour autant, en abriter un.
Tout le poids de l’expérience de pensée est là. Ce qui rend un agent conversationnel « humain » ne tient pas à ce qu’il calcule, mais à la manière dont c’est servi : faible latence, langage fluide, une fenêtre de discussion que l’on connaît par cœur. Remplacez cet habillage par des chèvres dans un labyrinthe, les entrées et les sorties ne bougent pas. Seule disparaît l’impression de parler à quelqu’un.
57 % des papiers tombent dans le piège
De Wynter aurait pu en rester à la démonstration spectaculaire. Il a préféré chiffrer le problème. Il a analysé 315 articles de recherche sur l’IA publiés entre mi-2024 et mi-2026, collectés via Semantic Scholar et arXiv, puis filtrés à l’aide d’un modèle de langage.
Le constat est sévère. 57 % de ces papiers présument déjà, dans leurs prémisses, que les modèles de langage possèdent des traits humains. 36 % aboutissent à des conclusions cohérentes avec cette hypothèse de départ. Et parmi les 47 articles qui prennent ces traits pour objet d’étude à part entière, 77 % concluent en faveur d’attributs anthropomorphiques.
Le défaut est formel, presque mécanique. Un chercheur qui suppose qu’un modèle éprouve de la peur, une morale ou une conscience de soi, puis conçoit une expérience destinée à prouver précisément ce trait, tient un raisonnement circulaire. L’hypothèse et le résultat se rejoignent sur le même point logique. La conclusion était écrite dans la question.
Ce que ça change pour qui orchestre l’IA
L’erreur de lecture serait de classer cette histoire au rayon des curiosités. Car le biais que pointe de Wynter ne reste pas confiné aux laboratoires : il redescend dans les produits, les démos et les argumentaires commerciaux que tout praticien manipule.
Quand un fournisseur vante un modèle qui « comprend », « raisonne » ou « veut bien faire », il vend souvent l’emballage plutôt que la mesure. Pour qui intègre ces outils au quotidien, la conséquence est concrète : un protocole d’évaluation bâti sur des prémisses anthropomorphiques produit des métriques qui se confirment elles-mêmes, et masque les vraies failles, celles qui se voient dans les entrées et les sorties.
De Wynter ne prétend pas savoir si un modèle abrite, en interne, de tels traits. Le débat n’a rien d’académique : Anthropic a lancé un programme de recherche sur le « bien-être » de ses modèles et publié des travaux sur une forme d’introspection chez Claude, quand de Wynter rappelle, lui, qu’aucune de ces propriétés n’est démontrée. Sa thèse est plus modeste et plus tranchante : les modèles de langage n’ont rien de spécial. Ils sont une façon d’exécuter un certain type de mathématiques, qui se trouve ressembler à quelque chose à qui l’on a envie de parler.
La leçon utile n’est donc pas de cesser de trouver les chatbots impressionnants. C’est d’apprendre à distinguer ce qui relève de la performance mesurable de ce qui relève de la mise en scène. Un test bien conçu devrait pouvoir échouer. Tant qu’on l’écrit pour réussir, on ne mesure que sa propre croyance, qu’elle s’exécute dans un data center ou dans un troupeau de chèvres.
