ChatGPT santé : et si l'IA gagnait surtout le triage ?

L’essentiel

OpenAI affirme que son nouveau modèle GPT-5.5 Instant dépasse les réponses rédigées par des médecins en exactitude, clarté et exhaustivité sur ses propres tests santé.
Le taux d’affirmations médicales incorrectes aurait chuté de 71 % en deux mois, avec des scores allant jusqu’à 89,9 % sur le suivi d’instructions.
Plus de 230 millions de personnes interrogent déjà ChatGPT chaque semaine sur des questions de santé, et GPT-5.5 Instant est accessible gratuitement, avec des limites d’usage.

On retiendra une phrase de l’annonce d’OpenAI : ChatGPT « bat » désormais les médecins sur les questions de santé. C’est le titre qui circule, et il n’est pas faux dans les termes de l’entreprise.

Sauf que regarder ce résultat comme une compétition entre une machine et un praticien, c’est se tromper de match. La nouveauté n’est pas qu’un modèle réponde mieux qu’un humain à un test. C’est qu’OpenAI vient de rendre ce modèle gratuit pour tout le monde, au moment précis où 230 millions de personnes lui posent déjà chaque semaine des questions sur leurs résultats d’analyses ou leurs ordonnances.

Le score, et ce qu’il ne mesure pas

Les chiffres sont solides. Sur HealthBench et HealthBench Professional, deux jeux de tests internes, GPT-5.5 Instant atteint le niveau des modèles Thinking les plus coûteux d’OpenAI pour une fraction du prix. Le modèle devance GPT-4o et les réponses rédigées par des médecins sur les cinq catégories d’évaluation, jusqu’à 89,9 % sur le suivi d’instructions. Le taux d’affirmations incorrectes aurait reculé de 71 % en deux mois.

@OpenAI sur X

Reste une question que le benchmark ne pose pas : que teste-t-on, au juste ? On compare des réponses écrites, notées par un protocole, sur des cas cadrés. Un médecin ne fait pas que produire du texte exact. Il observe, palpe, recoupe un contexte que le patient ne sait pas toujours formuler, et il assume juridiquement ce qu’il dit. Le test mesure la qualité de la prose médicale. Pas l’acte médical.

Le triage, voilà le produit

C’est ici que le débat manque sa cible. OpenAI ne vend pas un médecin de remplacement. L’entreprise décrit elle-même les usages réels : comprendre un résultat de laboratoire, préparer un rendez-vous, démêler une question d’assurance. Autrement dit, le premier filtre. Celui qui décide si une douleur justifie un appel aux urgences ou une nuit de sommeil.

Ce filtre, le triage, était jusqu’ici réparti entre le 15, le pharmacien du coin, le médecin traitant et l’entourage. OpenAI est en train de le centraliser dans une interface unique, gratuite, disponible à 3 heures du matin. C’est un déplacement de pouvoir bien plus profond qu’un point de pourcentage sur un test. Et il s’opère sans qu’aucun régulateur n’ait validé ChatGPT comme dispositif de triage. Le contraste avec Google est net : son système AMIE, conçu pour mener un véritable entretien diagnostique, a d’abord été éprouvé en essai clinique réel avant d’être publié dans Nature, là où OpenAI choisit d’emblée le déploiement de masse.

Qui répond quand le modèle se trompe ?

OpenAI a bien construit un garde-fou humain : un réseau de plus de 260 médecins, issus de 60 pays, parlant 49 langues et couvrant 26 spécialités, qui ont relu plus de 700 000 réponses du modèle. C’est sérieux, et c’est précisément ce qui rend l’effet de bord intéressant.

@OpenAI sur X

Car ces médecins améliorent le modèle en amont. Ils ne sont pas dans la boucle au moment où une personne, seule devant son écran, interprète une réponse pour elle-même. Quand un praticien se trompe, il existe une responsabilité, un ordre professionnel, une assurance. Quand un modèle génère une réponse plausible mais inadaptée à un cas particulier, qui porte le risque ? Le patient qui a « juste posé une question ». La responsabilité, elle, glisse silencieusement vers l’utilisateur final.

Ce que ça change pour qui orchestre l’IA

Pour celles et ceux qui intègrent ces modèles dans des produits, la leçon est concrète. Un score qui bat les médecins n’autorise pas à supprimer la couche d’orientation humaine ; il déplace l’endroit où elle doit se situer. L’ingénierie sérieuse, ici, ne consiste pas à brancher l’API la moins chère. Elle consiste à concevoir l’escalade : à quel signal le système cesse de répondre et renvoie vers un soignant.

Le fait que GPT-5.5 Instant soit aussi performant qu’un modèle Thinking pour bien moins cher change d’ailleurs l’équation économique. Le triage assisté par IA devient assez bon marché pour être déployé partout, par n’importe quelle application santé, sans la prudence d’un acteur médical établi. La performance débloque l’échelle ; l’échelle précède la régulation.

@OpenAI sur X

La précision n’était que la condition d’entrée

OpenAI répète que la santé sera l’un des effets les plus tangibles de l’AGI (intelligence artificielle générale). C’est probablement exact. Mais l’événement de cette semaine n’est pas que l’IA a « rattrapé » les médecins sur un tableau de scores. C’est qu’un outil grand public franchit le seuil de crédibilité à partir duquel des centaines de millions de gens vont, en pratique, lui déléguer la première décision médicale de leur journée.

La précision n’était que le ticket d’entrée. Le terrain qui se joue maintenant, c’est celui des responsabilités : qui oriente, qui valide, qui répond. Et sur ce terrain-là, aucun benchmark ne donne encore de score.

Mon avis

Je parie que d’ici dix-huit mois, le contentieux santé autour des assistants IA aura plus fait pour cadrer ces outils que tous les benchmarks réunis. OpenAI a raison de viser la santé, et ses chiffres sont impressionnants. Mais en rendant gratuit un triage de qualité médicale sans statut de dispositif médical, on industrialise un transfert de responsabilité vers des gens qui n’ont jamais signé pour ça. Le bon réflexe, pour tout produit qui s’y branche, n’est pas d’imiter ChatGPT mais de bâtir l’escalade vers l’humain que ChatGPT, lui, n’est pas obligé d’assumer.

ChatGPT santé : et si l’IA gagnait surtout le triage ?

Le score, et ce qu’il ne mesure pas

Le triage, voilà le produit

Qui répond quand le modèle se trompe ?

Ce que ça change pour qui orchestre l’IA

La précision n’était que la condition d’entrée

Sources

Un autre article ?

Alignement « robuste » d’OpenAI : où sont les chiffres ?

DeepMind ne fait plus confiance à ses propres IA

Anthropic coupe un client sur ordre de Washington

Laisser un commentaire Annuler la réponse