Sonnet 5 devance Opus de 3 points sur la connaissance

L’essentiel

Anthropic a lancé Claude Sonnet 5 le 30 juin, désormais modèle par défaut des offres Free et Pro et dans Claude Code.
Sur GDPval-AA v2, un test de travail de la connaissance, Sonnet 5 devance Opus 4.8 : 1618 points contre 1615.
Tarif d’introduction jusqu’au 31 août : 2 $ en entrée et 10 $ en sortie par million de tokens, puis 3 $ / 15 $, avec une fenêtre de contexte d’un million de tokens.

Sur un test censé refléter le travail intellectuel du quotidien, c’est le modèle le moins cher qui passe devant le vaisseau amiral. Claude Sonnet 5 y inscrit 1618 points, contre 1615 pour Opus 4.8, le modèle plus lourd et plus onéreux de la maison Anthropic. Trois points d’écart, presque rien. Et c’est justement ce presque rien qui mérite qu’on s’y arrête.

Un coude à coude à 1618 contre 1615

Le chiffre vient d’Anthropic, qui l’a publié dans les évaluations accompagnant l’annonce du modèle. GDPval-AA v2 cherche à mesurer la performance sur des tâches de connaissance ancrées dans le réel, loin des exercices de laboratoire. Sur ce terrain, Sonnet 5 fait mieux que talonner Opus 4.8 : il le dépasse, d’un cheveu.

Trois points sur une échelle qui en compte plus de mille cinq cents, c’est statistiquement une égalité. Personne ne dira que Sonnet 5 est « meilleur » qu’Opus sur la foi de cet écart. Mais la lecture symbolique, elle, est nette : le modèle intermédiaire d’Anthropic vient de rattraper son propre haut de gamme sur les usages qui concernent la majorité des utilisateurs. La marge de sécurité qui justifiait le prix d’Opus vient de fondre.

@claudeai sur X

Sur le code, Opus garde l’avantage

Reste que ce coude à coude ne vaut que pour la connaissance. Élargissez le tableau et la hiérarchie se rétablit. Sur SWE-bench Pro, le test de programmation agentique, Sonnet 5 marque 63,2 %, une belle progression depuis les 58,1 % de son prédécesseur Sonnet 4.6, mais Opus 4.8 reste devant à 69,2 %. Six points d’écart, cette fois : sur le code pur, le grand modèle conserve sa longueur d’avance.

Ailleurs, l’écart se resserre franchement. Sur Terminal-Bench 2.1, Sonnet 5 grimpe à 80,4 % quand la version précédente plafonnait à 67,0 %. Sur le raisonnement multidisciplinaire de Humanity’s Last Exam, il atteint 57,4 % avec outils, à un demi-point d’Opus (57,9 %). Sur l’usage d’un ordinateur (OSWorld-Verified), 81,2 % contre 78,5 % pour Sonnet 4.6. Le tableau d’ensemble dit une chose simple : Sonnet 5 progresse partout, comble le retard sur le raisonnement et l’usage d’outils, et ne cède vraiment que sur la programmation la plus exigeante.

La grille tarifaire fait le reste du travail

Voilà où le chiffre de départ prend tout son sens. Un modèle qui égale le haut de gamme sur la connaissance, le talonne sur le raisonnement, et coûte le prix d’un Sonnet, ça déplace la question. Jusqu’au 31 août, l’accès se facture 2 dollars par million de tokens en entrée et 10 en sortie ; ensuite 3 et 15. Le tout avec une fenêtre de contexte d’un million de tokens, et une place de modèle par défaut dans Claude Code comme sur les offres grand public.

@claudeai sur X

Anthropic ajoute un curseur d’effort qui permet de régler soi-même le compromis entre coût et performance : à effort moyen, Sonnet 5 offre une efficacité nettement supérieure ; poussé plus loin, il rejoint Opus 4.8 sur certaines tâches. L’idée n’est pas propre à la maison : OpenAI expose déjà un réglage d’effort de raisonnement sur ses modèles GPT-5, et Google un budget de réflexion ajustable sur Gemini. Pour qui fait tourner des agents à longueur de journée, c’est le calcul qui change. On ne choisit plus entre un modèle assez bon et un modèle assez cher : on ajuste l’effort tâche par tâche. Les premiers partenaires cités par Anthropic décrivent des agents qui mènent au bout des missions en plusieurs étapes, jusqu’à la mise à jour de fiches clients ou l’envoi d’annonces, là où les Sonnet précédents calaient à mi-chemin.

Cybersécurité : Anthropic a déminé avant l’annonce

Le contexte pesait sur ce lancement. Plusieurs médias rapportent que le gouvernement américain bloque les deux modèles les plus capables de l’entreprise pour des raisons de cybersécurité. Anthropic a donc soigné son argumentaire : Sonnet 5 n’a pas été entraîné sur des tâches offensives, et sur l’écriture d’exploits, il reste très en deçà d’Opus. Sur l’évaluation d’un exploit visant Firefox 147, il n’atteint qu’un taux de contrôle partiel de 13,2 %, sans jamais produire d’exploit fonctionnel.

Le modèle marque tout de même un peu plus haut que son prédécesseur sur ces épreuves. Par prudence, Anthropic active par défaut des garde-fous qui repèrent et bloquent en temps réel les usages cyber à risque, au même niveau que pour Opus 4.7 et 4.8. La System Card documente par ailleurs un taux de comportements indésirables en baisse, moins d’hallucinations et une meilleure résistance aux injections de prompt. L’entreprise juge le risque cyber global faible.

@claudeai sur X

Trois points sur un tableau qui en compte plus de mille cinq cents ne prouvent rien à eux seuls. Ils marquent surtout un basculement de méthode : chez Anthropic, le modèle le moins cher vient de rejoindre le plus cher sur le terrain le plus fréquenté, celui de la connaissance. Le haut de gamme garde le code ; il cesse d’être un passage obligé pour tout le reste.

Mon avis

Je regarde ces trois points d’écart et j’y vois un aveu plus qu’un exploit : la course à la taille brute des modèles ne paie plus le prix qu’on lui demande. Anthropic vend son Sonnet en le comparant à son propre Opus, et le petit gagne sur le terrain qui compte pour l’immense majorité des usages. D’ici la fin de l’année, je m’attends à ce que le mot « flagship » perde son sens commercial : on ne paiera plus pour une puissance de vitrine, on paiera pour un curseur d’effort qu’on règle soi-même, tâche par tâche.

Sonnet 5 devance Opus de 3 points sur la connaissance

Un coude à coude à 1618 contre 1615

Sur le code, Opus garde l’avantage

La grille tarifaire fait le reste du travail

Cybersécurité : Anthropic a déminé avant l’annonce

Sources

Un autre article ?

VibeThinker-3B : le raisonnement tient dans 3 milliards

Meta décode l’intention : le prompt sans les mains ?

Installer un LLM en local : l’IA sans le cloud

Laisser un commentaire Annuler la réponse