93 % vérifiables : l'IA qui montre ses calculs

93 %. C’est la part des affirmations visibles, dans un article généré par le système expérimental Data2Story, dont vous pouvez remonter l’origine en un clic. Pas la part des affirmations exactes : la part des affirmations vérifiables. La nuance n’est pas un détail, c’est tout le sujet.

Au passage, un autre chiffre a beaucoup circulé : 74 % des lecteurs testés ont préféré l’article produit par la machine à son équivalent écrit par un humain. Spectaculaire, mais trompeur. Le chiffre qui change la donne n’est pas celui-là.

D’où sort ce 93 %

Data2Story, décrit dans un travail signé Lin et ses coauteurs, prend un jeu de données brut, un simple fichier CSV, et en sort un article web multimédia, avec graphiques et éléments interactifs. Sa pièce maîtresse n’est pas la prose : c’est un panneau baptisé « Inspector ».

Concrètement, chaque phrase annotée, chaque graphique, chaque carte reçoit sa propre fiche. La fiche affiche soit l’URL externe qui étaye l’affirmation, soit la ligne de code exacte qui a produit le chiffre, accompagnée du fichier de données sous-jacent. Vous doutez d’une statistique ? Vous relancez le script et vous recalculez la valeur vous-même.

Le 93 % mesure donc une chose précise : la proportion d’énoncés rattachés à une source consultable ou à un calcul rejouable. Une métrique de traçabilité, pas de véracité.

Ce que le chiffre ne dit pas

Les auteurs insistent eux-mêmes sur le point, et il faut le marteler : traçable ne veut pas dire correct. Un calcul peut être parfaitement reproductible et reposer sur une donnée erronée, un jeu de départ biaisé, ou une question mal posée. Le panneau Inspector garantit que vous pouvez auditer la chaîne, pas qu’elle aboutit à la vérité.

La démonstration phare l’illustre presque malgré elle. À partir du calendrier de la Coupe du monde 2026, le système génère un article centré sur le climat : environ quatre matchs sur dix se joueraient dans des villes classées en risque de chaleur extrême par le syndicat des joueurs FIFPRO, l’humidité pesant davantage que la température de l’air. Mais les auteurs précisent qu’il s’agit de conditions climatiques typiques, pas d’une prévision pour le tournoi réel. La donnée est traçable jusqu’à FIFPRO et aux relevés d’Open-Meteo ; son interprétation, elle, reste une projection à manier avec prudence.

Autrement dit, 93 % de traçabilité déplace la charge de la confiance : vous ne croyez plus l’auteur sur parole, vous vérifiez sa méthode. C’est un gain réel, mais il ne dispense de rien. Il outille le doute, il ne le supprime pas.

25 % côté humain : l’écart qui interroge

Le 93 % ne prend tout son sens qu’en regard de son point de comparaison. Pour un article écrit par un journaliste, la même mesure de traçabilité tombe à 25 %. Trois quarts des affirmations d’un papier humain ne sont donc pas rattachables, depuis la page, à une source consultable ou à un calcul reproductible.

L’explication tient en grande partie à une habitude du métier : les rédactions ne publient quasiment jamais le code de leurs analyses. Le calcul derrière un graphique reste dans un tableur privé, une requête perdue, une note de bas de page absente. L’écart de 25 à 93 mesure moins l’intelligence de la machine qu’un angle mort de la pratique journalistique.

Ramené à un ordre de grandeur, on passe d’une affirmation vérifiable sur quatre à plus de neuf sur dix. C’est un facteur proche de quatre. Le signal est limpide : exposer la chaîne de calcul n’est pas un luxe d’ingénieur, c’est devenu un critère de qualité éditoriale auquel peu de rédactions humaines se mesurent.

Sept agents pour tenir la promesse

Cette traçabilité ne tombe pas du ciel : elle est le produit d’une chaîne de sept agents spécialisés, que l’équipe surnomme une « rédaction virtuelle ». Le « Detective » lance des recherches web pour le contexte, car une table de données seule raconte rarement l’histoire complète. L’« Analyst » exécute du code plutôt que de deviner les chiffres. L’« Editor » choisit les conclusions qui portent le récit, le « Designer » sélectionne le bon support (une carte pour la géographie, un extrait audio pour la musique), le « Programmer » construit la page HTML, l’« Auditor » traque les défauts de mise en page, et l’« Inspector » referme la boucle en reliant chaque énoncé à sa source.

Le modèle de base est Claude Opus 4.7, piloté via Claude Code. Pour les images, la vidéo et l’audio, le système va chercher des modèles tiers par l’intermédiaire d’OpenRouter. Le 93 % repose ainsi sur une division du travail : c’est l’agent qui calcule (l’« Analyst ») qui rend possible l’agent qui certifie (l’« Inspector »).

Et les 74 % de préférence, alors ?

Revenons au chiffre vedette pour le remettre à sa place. Les chercheurs ont apparié 18 jeux de données publics avec des originaux humains issus de trois références : les notes concises de The Economist, les longs formats soignés de The Pudding et les jeux communautaires de TidyTuesday. 53 lecteurs ont noté les deux versions sur cinq critères, dont le design visuel, le rythme narratif, la transparence des données et la vérifiabilité.

Data2Story remporte les cinq catégories. Son avance la plus nette ? La transparence, avec un écart de +1,49 sur une échelle de sept points. Le 74 % de préférence globale est flatteur, mais il agrège des goûts subjectifs sur le design et le rythme. La transparence, elle, se mesure ; et c’est précisément là que la machine creuse le plus l’écart.

De ces deux chiffres, retenez le second. Préférer une mise en page, c’est une question de goût qui se renversera au gré des outils et des modes. Pouvoir auditer neuf affirmations sur dix au lieu d’une sur quatre, c’est un standard nouveau. La prochaine fois qu’un graphique vous surprend, la vraie question ne sera plus « qui l’a écrit ? » mais « puis-je relancer son calcul ? ».

Sources

Claude Code

93 % vérifiables : l’IA qui montre ses calculs

D’où sort ce 93 %

Ce que le chiffre ne dit pas

25 % côté humain : l’écart qui interroge

Sept agents pour tenir la promesse

Et les 74 % de préférence, alors ?

Sources

Un autre article ?

Anthropic prépare un Claude qui se réveille seul

OpenClaw : pourquoi le modèle ne suffit plus à faire un agent

Au bureau, l’IA ne boucle vraiment que 3 % des tâches

Laisser un commentaire Annuler la réponse