Qwen affiné bat GPT et Claude en finance, 14× moins cher

L’essentiel

Bridgewater et Thinking Machines Lab affirment qu’un modèle ouvert affiné surclasse GPT, Claude et Gemini sur l’évaluation de documents financiers.
Ce modèle, bâti sur Qwen3-235B, atteint 84,7 % de justesse contre 78,2 % pour le meilleur modèle frontière testé, à un coût près de quatorze fois moindre.
Les modèles frontière plafonnaient à environ 50 % avec un prompt simple, et restaient sous la barre des 80 % même avec des consignes d’experts.
La comparaison a été menée en interne par les deux entreprises, qui vendent l’un et l’autre l’outil concerné.

Bridgewater et Thinking Machines Lab, la jeune pousse fondée par Mira Murati (ex-directrice technique d’OpenAI), signent ensemble un rapport au verdict tranchant : sur l’évaluation de documents financiers, un modèle ouvert affiné maison bat GPT, Claude et Gemini, et pour une fraction du prix. L’annonce est spectaculaire. Elle vient aussi de deux maisons qui vendent précisément la méthode qu’elles vantent. Encore faut-il savoir d’où vient l’écart, et ce qu’il vaut une fois sorti du laboratoire de ceux qui le revendiquent.

Six tâches tirées du quotidien d’un investisseur

Le score sort d’un banc d’essai maison, décrit dans un rapport signé Bridgewater AIA Labs et Thinking Machines Lab. Les auteurs ont défini six tâches tirées du quotidien d’un investisseur : décider si un article financier est pertinent pour un dirigeant, juger si un document de banque centrale annonce ou non un mouvement de taux, et ainsi de suite. Rien d’exotique : ce sont les micro-arbitrages que ces professionnels font des dizaines de fois par jour, presque sans y penser.

Les auteurs se sont fixé un seuil clair : 80 % de justesse, en dessous duquel un système ne mérite pas d’être déployé en confiance. Les 84,7 % du modèle affiné passent la barre. Les 78,2 % du meilleur généraliste, non. Tout l’écart tient dans ces quelques points, et c’est là que l’histoire devient intéressante.

Là où GPT et Claude butent

Avec un prompt basique (la consigne donnée au modèle), les variantes de Gemini, Claude et GPT tournent autour de 50 % de bonnes réponses. Autrement dit, à peine mieux qu’un tirage au sort sur des questions binaires. En réécrivant les consignes à la main et en ajoutant une notation à trois niveaux (« pertinent et intéressant », « pertinent mais sans intérêt », « hors sujet »), les auteurs remontent le score jusqu’au milieu des 70 %. Un progrès net, mais qui bute toujours sous le seuil de déploiement.

Un exemple donné dans le rapport résume la difficulté. Un titre sur les visées de Donald Trump sur le Groenland est jugé hors sujet ; une menace de nouveaux droits de douane contre la Chine, hautement pertinente. Les deux mêlent géopolitique et finance. La frontière entre les deux, un investisseur la sent immédiatement, mais peine à la formuler. Et un modèle ne peut pas apprendre une règle que personne n’a jamais écrite.

Le rapport glisse au passage un chiffre qui refroidit la course à la montée en gamme : GPT 5.4 coûte 43 % de plus que GPT 5.2 pour une précision à peine supérieure. Sur cette tâche précise, payer plus cher un modèle plus récent ne rapporte quasiment rien.

@WBuzzer sur X

La donnée que le web n’a jamais vue

C’est ici que le fil se noue. Si les modèles frontière calent, ce n’est pas faute de puissance : c’est que la bonne réponse n’a jamais été publiée nulle part. Elle vit dans la tête des investisseurs, dans un savoir tacite que personne n’a mis en ligne. Un modèle entraîné sur le web ne peut rien recopier qui n’y figure pas.

La parade a consisté à affiner un modèle ouvert sur ces jugements propriétaires. Le socle : Qwen3-235B, entraîné via Tinker, la plateforme de Thinking Machines Lab. L’ingrédient rare, ce sont les décisions des investisseurs eux-mêmes. Pour les capter sans mobiliser des experts hors de prix, l’équipe a bricolé une astuce : des sous-traitants bon marché ont d’abord étiqueté les documents, avec beaucoup d’erreurs ; un premier modèle a appris de ces étiquettes imparfaites, puis a réévalué les mêmes textes. Là où le modèle et l’étiquette d’origine divergeaient se cachait probablement une faute. Seuls ces cas litigieux ont été remontés aux investisseurs pour correction. Résultat : le savoir humain est injecté au bon endroit, sans reléguer les experts au travail d’annotation en masse.

Un résultat maison, une leçon qui le dépasse

Avant de généraliser, une réserve s’impose : ce n’est pas une comparaison indépendante. Bridgewater vend son expertise, Thinking Machines Lab vend Tinker. Les 84,7 % sont un argument commercial autant qu’un résultat scientifique, et il faudra un banc d’essai tiers pour les tenir pour acquis.

La leçon, elle, dépasse le score. Elle confirme que les grands laboratoires n’ont pas absorbé toute la donnée du monde. D’immenses gisements d’informations d’entreprise, et un savoir-faire humain jamais formalisé, restent hors de leur portée, surtout là où les sociétés gardent jalousement leurs données les plus précieuses. Affiner un modèle ouvert avec un outil comme Tinker offre une alternative concrète : l’entreprise conserve les poids du modèle (ses paramètres internes), les données et, selon le montage, ses propres GPU (les puces de calcul). À l’inverse, confier ce patrimoine à un labo frontière, c’est risquer de se retrouver un jour en concurrence avec un produit bâti dessus.

Mon avis

Un modèle n’invente pas un savoir qu’il n’a jamais lu, et la course aux paramètres nous l’a fait oublier. C’est pour moi la vraie information de cette étude : sur des jugements que les investisseurs gardent dans leur tête, GPT et Claude partent perdants, et aucune version 6 ou 7 n’y changera rien. Je suis convaincu que les entreprises assises sur des données propriétaires tiennent là le seul avantage que les grands labos ne pourront pas copier, à condition de le muscler elles-mêmes plutôt que de le livrer à ceux qui le revendront ensuite.

Sources

Qwen3-235B

Qwen affiné bat GPT et Claude en finance, 14× moins cher

Six tâches tirées du quotidien d’un investisseur

Là où GPT et Claude butent

La donnée que le web n’a jamais vue

Un résultat maison, une leçon qui le dépasse

Sources

Un autre article ?

L’IA répond toujours 7 : une startup mise sur l’écart

Papyrus du Vésuve : l’IA lit ce que l’œil ne voit pas

Sonnet 5 devance Opus de 3 points sur la connaissance

Laisser un commentaire Annuler la réponse