IA scientifique : Anthropic outille, OpenAI mesure

IA scientifique : Anthropic outille, OpenAI mesure

La même semaine, à quelques heures d’intervalle, Anthropic et OpenAI ont posé deux cartes très différentes sur la même table : la recherche scientifique. Le premier livre un atelier. Le second, une épreuve. Deux gestes que rien ne semble rapprocher, sauf l’essentiel : la cible qu’ils visent tous les deux.

Deux labos, deux gestes, une même faille à combler

Anthropic a présenté Claude Science, une application pensée pour épouser chaque étape du travail d’un chercheur. OpenAI, lui, a dévoilé GeneBench-Pro, un benchmark (test de référence) de niveau recherche. L’un produit, l’autre note. L’un met un outil dans les mains du scientifique, l’autre pose une règle pour juger les agents. Deux directions inverses, un même angle mort attaqué de front.

Le problème d’un modèle de langage en science n’a jamais été de produire une phrase plausible : ça, il le fait trop bien. Le problème, c’est de produire un résultat qu’un pair peut rejouer, vérifier et contester. Un assistant conversationnel répond. Un chercheur, lui, doit pouvoir défendre chaque chiffre devant un comité de relecture, des mois après l’avoir calculé. Entre les deux, un fossé que la fluidité du texte ne comble pas.

Claude Science, l’atelier qui montre ses calculs

Toute l’approche d’Anthropic tient dans un mot : la traçabilité. Chaque figure, chaque tableau, chaque manuscrit produit par Claude Science embarque le code exact qui l’a généré, l’environnement d’exécution et l’historique complet de la conversation. Vous pouvez donc reprendre un graphique six mois plus tard, comprendre comment il a été fabriqué, le modifier en langage naturel (« passe l’axe en échelle logarithmique », « retire la grille ») et l’agent réécrit son propre code.

L’outil rassemble en un seul environnement ce que les chercheurs répartissaient jusqu’ici entre PubMed, Jupyter, R et un terminal de cluster : plus de soixante bases de données et compétences pré-configurées pour la génomique, l’analyse en cellule unique, la protéomique, la biologie structurale ou la chémo-informatique. Un agent coordinateur pilote le tout, peut en convoquer d’autres, et un agent relecteur vérifie de lui-même les citations et les calculs, signalant et corrigeant les erreurs.

Deux détails trahissent une intention sérieuse. D’abord, l’application tourne en local sur macOS ou Linux et se connecte aux machines distantes par SSH ou à un cluster de calcul : les données sensibles d’un laboratoire ne quittent pas son infrastructure, seul le contexte strictement nécessaire part vers le modèle. Ensuite, elle s’appuie sur la boîte à outils BioNeMo de Nvidia et ses modèles spécialisés (Evo 2, Boltz-2, OpenFold3) pour replier une protéine ou lancer un pipeline génomique, en passant d’un GPU unique à plusieurs centaines quand l’analyse l’exige. « Je passe des données brutes à une figure de qualité publication dans une seule session », témoigne Mike Nichols, biologiste computationnel chez Manifold Bio, qui insiste sur ce point : le code et la conversation sont soudés à chaque version.

GeneBench-Pro, l’épreuve du jugement

OpenAI ne construit pas un atelier. Il construit un thermomètre. GeneBench-Pro cherche à mesurer un type de progrès plus difficile à obtenir que la résolution de problèmes bien posés : la capacité d’un agent à naviguer dans des données biologiques désordonnées, à choisir le bon chemin d’analyse parmi plusieurs plausibles, et à trancher là où il faut du discernement.

La nuance est décisive. La plupart des benchmarks récompensent la bonne réponse à une question fermée. Celui-ci s’intéresse au trajet, pas seulement à l’arrivée : sait-on faire confiance à un agent quand les données sont sales, ambiguës, et qu’aucune procédure toute faite ne s’applique ? C’est précisément la zone où un scientifique gagne son salaire, et celle où les modèles génèrent aujourd’hui leurs erreurs les plus coûteuses, parce que les plus assurées.

L’outil et l’étalon se répondent

Mis en regard, les deux paris s’éclairent. Anthropic mise sur la réponse par l’outil : donnez au chercheur un environnement qui produit des artefacts auditables, et la confiance suivra. OpenAI mise sur la réponse par la mesure : avant de confier du jugement à un agent, il faut une manière rigoureuse de savoir s’il en est capable. L’un fabrique la preuve, l’autre fabrique le juge.

Aucun des deux ne suffit seul. Un atelier qui produit des figures que personne ne sait évaluer reste un joli gadget ; un benchmark que rien ne vient satisfaire reste une exigence en l’air. Ce qui compte, cette semaine, tient moins au produit ou au score qu’à leur simultanéité : deux concurrents majeurs décident, au même moment, que le terrain de jeu se déplace du texte convaincant vers le résultat défendable.

La conséquence dépasse les deux annonces. La phase de la démo qui impressionne se referme, et la barre devient la reproductibilité, la traçabilité, la capacité à rendre des comptes ligne par ligne. Un agent qui produit un résultat sans pouvoir montrer comment il y est arrivé ne passera bientôt plus, pas plus en science qu’ailleurs.

Anthropic accompagne d’ailleurs jusqu’à cinquante projets de recherche avec un maximum de 30 000 dollars de crédits chacun, candidatures ouvertes jusqu’au 15 juillet 2026 : une façon de peupler vite son atelier de cas réels. Reste l’inconnue commune aux deux camps : un artefact tracé et un score élevé disent comment un résultat a été obtenu, jamais s’il avait un sens. Ce dernier verrou, celui du sens, appartient toujours au chercheur. Et c’est peut-être la meilleure nouvelle de la semaine.

Sources

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *