
173. C’est le nombre de scientifiques qu’OpenAI a mobilisés pour écrire son nouveau banc d’essai, LifeSciBench, dévoilé le 17 juin. Pas des annotateurs anonymes payés à la tâche : des chercheurs avec un doctorat et une expérience industrielle en biotechnologie ou en pharmacie. Ce chiffre n’est pas un argument marketing. Il dit quelque chose sur ce qu’OpenAI cherche désormais à mesurer, et sur ce qu’on mesurait mal jusqu’ici.
Décortiquons-le.
D’où sort ce chiffre, et ce qu’il vaut vraiment
Faire écrire 750 tâches par 173 experts, ce n’est pas la même opération industrielle qu’un questionnaire à choix multiples aspiré sur le web. Selon OpenAI, chaque tâche a traversé en moyenne six cycles de relecture automatisée et au moins deux tours de revue humaine, sans plafond fixé sur le nombre de révisions. Autrement dit : on n’optimise pas le volume, on optimise la fiabilité du verdict.
Le coût est implicite mais réel. Recruter des profils doctoraux ayant fait avancer des programmes de découverte de médicaments, leur faire rédiger des énoncés ouverts puis des grilles d’évaluation sur mesure, c’est un investissement qui n’a de sens que si l’objet à mesurer le justifie. Et c’est là que le chiffre devient intéressant : il signale qu’OpenAI ne croit plus que la connaissance biologique brute soit ce qu’il faut tester.
750 tâches, mais surtout 79 % qui se jouent en plusieurs coups
Le volume affiché, c’est 750 tâches réparties sur sept workflows (manipulation de preuves, analyse, conception et optimisation, raisonnement, validation et opérations, transfert clinique, communication) et sept domaines biologiques. Mais le chiffre qui porte l’angle est ailleurs : 79 % des tâches exigent plusieurs étapes de raisonnement ou de décision, avec une moyenne de quatre étapes par tâche.
C’est l’écart décisif avec les bancs d’essai habituels. Une question de rappel de fait se valide en un coup : la réponse est juste ou fausse. Une tâche à quatre étapes, elle, peut être correcte à l’arrivée pour de mauvaises raisons, ou échouer sur la troisième inférence après deux justes. Mesurer ce taux, c’est mesurer le raisonnement, pas la mémoire. Pour quiconque orchestre des modèles au quotidien, la nuance est familière : un agent qui enchaîne des appels d’outils se casse rarement sur la connaissance, presque toujours sur l’enchaînement.
1 062 artefacts : le chiffre qui change la nature du test
Vient le nombre le plus parlant. LifeSciBench joint 1 062 artefacts aux tâches : figures, PDF, tableaux, fichiers de séquences, structures ou fichiers chimiques, références web. Et 53 % des tâches obligent le modèle à interpréter ou synthétiser au moins un de ces documents, au lieu de tout déduire du texte de la consigne.
Remis en contexte, ce pourcentage déplace la barre. Un modèle qui répond bien à une question posée en langage naturel n’a pas prouvé qu’il sait lire un tableau de résultats d’essai, repérer une incohérence dans une figure ou raisonner sur un fichier de séquence. Plus de la moitié des tâches refusent désormais cette facilité. C’est moins un examen de culture biologique qu’un examen de travail sur pièces, sous incertitude, comme un chercheur le ferait face à des données partielles et parfois contradictoires.
Ce que le chiffre masque
Un nombre rond et flatteur appelle la prudence. Trois zones d’ombre méritent d’être nommées.
- Le score des modèles est absent. OpenAI présente la méthode et la taille du jeu de données, pas les performances comparées des modèles. Tant qu’on ne connaît pas le taux de réussite, 750 tâches restent une mesure d’effort de construction, pas une mesure de capacité.
- 173 experts, mais lesquels ? Des profils issus de la biotech et de la pharma orientent forcément le banc d’essai vers la découverte de médicaments. C’est une force pour la pertinence appliquée, une limite pour la généralité : la science de la vie ne se réduit pas au pipeline pharmaceutique.
- Le juge reste à juger. Des grilles écrites par des humains pour noter des réponses libres, c’est plus riche qu’une correction automatique, mais cela introduit une subjectivité qu’aucun pourcentage n’efface.
Pourquoi ce banc d’essai arrive maintenant
Le calendrier n’est pas neutre. Les systèmes agentiques deviennent capables d’enchaîner des tâches scientifiques, et l’on s’aperçoit que les évaluations existantes ne disaient presque rien de leur utilité réelle en laboratoire. OpenAI le formule sans détour : beaucoup de bancs d’essai du domaine se concentrent sur des compétences isolées, avec des formats de questions structurés et des réponses de référence nettes. Valable, mais à côté de la plaque pour juger un collaborateur de recherche.
OpenAI n’est d’ailleurs pas seul sur ce terrain : Anthropic a bâti son propre banc d’essai biologie, BioMysteryBench, pour mesurer Claude sur de vrais jeux de données bioinformatiques bruités. Deux laboratoires concurrents en arrivent à la même conclusion : il faut tester les modèles sur le geste du chercheur, pas sur sa mémoire.
L’enjeu pratique est là. Si l’on veut confier à un modèle l’interprétation de preuves incomplètes ou l’évaluation d’un risque de transposition clinique, il faut d’abord savoir le mesurer sur ces gestes précis. LifeSciBench est présenté comme une base pour cela : une évaluation plus réaliste, des améliorations ciblées, un dialogue continu avec la communauté scientifique.
L’intérêt de ces chiffres tient moins à leur ampleur qu’à ce qu’ils révèlent : pendant des années, on a noté l’IA scientifique sur sa capacité à réciter, quand le métier de chercheur consiste à décider sous incertitude. Mesurer le bon geste ne garantit pas qu’un modèle le maîtrise. Mais on ne corrige bien que ce qu’on évalue bien, et c’est précisément le déplacement que ces 750 tâches viennent acter.
