Appeler l'IA « collègue » nous fait rater 18 % d'erreurs

Donnez le même document à relire à deux groupes. Au premier, dites qu’il sort d’un chatbot. Au second, présentez-le comme le travail d’un « employé » IA agentique. Le second groupe repérera 18 % d’erreurs en moins. Même texte, mêmes fautes exactement : seul le mot a changé.

Ce chiffre, rapporté fin juin 2026 par la MIT Technology Review, mérite qu’on s’y arrête plus d’une seconde. Parce qu’il ne parle pas de la performance de la machine. Il parle de la nôtre, et de ce qu’un simple étiquetage fait à notre attention.

La variable testée tenait en un mot

Regardons ce qui est réellement mesuré. Ni un taux d’erreur de l’IA, ni la fiabilité d’un modèle donné : une baisse de vigilance humaine. L’expérience compare les fautes détectées entre deux conditions de relecture strictement identiques, à ceci près qu’on a changé la manière de désigner l’auteur.

Autrement dit, la variable testée n’est ni le prompt, ni l’architecture du modèle, ni la qualité de la sortie. C’est un mot. « Employé » contre « outil ». Et ce mot suffit à faire chuter d’un cinquième la capacité d’un relecteur à repérer les défauts qu’il a pourtant sous les yeux.

Un cinquième, c’est considérable. Sur une chaîne de production éditoriale, juridique ou logicielle qui traite des centaines de sorties par jour, cela signifie qu’une erreur sur cinq, aujourd’hui interceptée, passerait le filtre demain. Non parce que l’IA se serait dégradée, mais parce qu’on aurait rebaptisé la case du diagramme.

La confiance accordée à un pair désarme le relecteur

Le mécanisme est connu des sciences cognitives bien avant l’IA. Face à un travail attribué à un pair, nous mobilisons une confiance sociale par défaut : un collègue est réputé compétent, responsable, corrigible. On relit alors pour valider, pas pour débusquer. Face à un outil, au contraire, nous restons en posture d’inspection : la machine est réputée faillible, donc on cherche la faille.

Le vocabulaire de l’« employé » IA transfère la première posture là où la seconde serait de rigueur. C’est tout le paradoxe : une IA agentique, qui enchaîne des actions en autonomie sur plusieurs étapes, demande plus de contrôle qu’un chatbot à qui l’on pose une question isolée. Or le mot qu’on lui colle en appelle moins.

L’anthropomorphisme n’est donc pas un habillage marketing sans conséquence. C’est un levier qui agit directement sur le comportement de l’utilisateur, en amont de toute considération technique. On croit décrire l’outil ; on reprogramme l’humain qui le surveille.

Quand quatre géants adoptent le même lexique

Le chiffre serait une curiosité de laboratoire s’il ne rencontrait pas une tendance de fond. Microsoft, OpenAI, Anthropic et Google ont tous mis sur le marché, ces derniers mois, des outils pour piloter des équipes entières d’agents logiciels comme on gère un service. Le champ lexical est explicite : « recrue », « coéquipier », « employé numérique ».

Ce glissement n’est pas neutre, et il n’est pas gratuit. Vendre un agent comme un collègue, c’est vendre la promesse qu’on pourra lui déléguer sans repasser derrière, exactement comme on délègue à un humain de confiance. La métaphore RH fait le travail commercial : elle rend l’autonomie désirable en gommant le coût de surveillance qui l’accompagne.

Le problème, c’est que ce coût ne disparaît pas. Il se déplace, silencieusement, du fournisseur vers l’utilisateur, et du poste de travail conscient vers l’angle mort cognitif. Les 18 % chiffrent précisément la taille de cet angle mort.

Un résultat robuste dans son sens, fragile dans sa portée

Restons lucides sur ses limites. Un écart mesuré en conditions de test ne se transpose pas mécaniquement à tous les métiers ni à toutes les tailles d’échantillon ; l’effet peut s’atténuer chez des relecteurs expérimentés, ou au contraire s’aggraver sous pression de délai. La MIT Technology Review relaie un signal fort, pas une loi universelle, et il faudra d’autres réplications pour en border la portée.

Mais le sens de l’écart, lui, est robuste et va toujours dans la même direction : plus on humanise la désignation d’un système, moins on le contrôle. Aucune version optimiste de ce résultat n’existe pour qui doit garantir la qualité d’une sortie automatisée.

Le mot par lequel on nomme la machine fait partie du dispositif de sécurité

La conséquence pratique est directe, et elle ne relève pas de la technique mais du langage qu’on s’autorise. Dans une équipe qui met des agents en production, appeler un système « employé » ou « collègue » n’est pas une facilité de conversation : c’est un choix qui abaisse mesurablement le seuil de contrôle de ceux qui l’utilisent.

Les garde-fous connus restent valables : relecture en double, revue de code, journaux d’audit, tests sur les sorties. Mais ce résultat ajoute une pièce qu’on néglige : le vocabulaire lui-même. La façon de nommer la machine appartient au dispositif de sécurité, et le durcir, c’est déjà relever la garde.

Le vocabulaire des fournisseurs, lui, n’attend pas : il est déjà en circulation. Chaque équipe qui met des agents en production fixe, à chaque fois qu’elle nomme la machine, le seuil de vigilance de ceux qui l’utilisent. Autant en faire un choix conscient plutôt qu’une commodité de langage.

Appeler l’IA « collègue » nous fait rater 18 % d’erreurs

La variable testée tenait en un mot

La confiance accordée à un pair désarme le relecteur

Quand quatre géants adoptent le même lexique

Un résultat robuste dans son sens, fragile dans sa portée

Le mot par lequel on nomme la machine fait partie du dispositif de sécurité

Un autre article ?

L’IA déterre 1 500 failles par mois, la correction ne suit pas

Agents IA : l’attaque qui se cache entre les pull requests

Pourquoi un navigateur IA oublie ses règles sur commande

Laisser un commentaire Annuler la réponse