Scaling : Altman confond une preuve et une promesse

Sam Altman ne débat plus, il règle des comptes. Devant un public à Stanford, le patron d’OpenAI a renvoyé ses détracteurs à leur aveuglement : « toute une génération de chercheurs » aurait retardé le domaine en sous-estimant ce que le scaling, l’augmentation continue de la taille des modèles et des données, pouvait accomplir. La phrase sonne comme une victoire. Elle mérite qu’on la regarde de plus près.

Une revanche déguisée en science

Deux registres se télescopent dans la sortie d’Altman, et ils ne disent pas la même chose. D’un côté, une posture scientifique : les données soutiennent la poursuite du scaling, donc continuons. De l’autre, un récit de revanche : ceux qui prédisaient le mur « accrochent leur identité à une position et n’arrivent pas à la lâcher, même quand les données leur donnent tort ».

Le premier registre invite à la prudence et à la mesure. Le second désigne des coupables nommés, Yann LeCun en tête, qui qualifie les grands modèles de langage (LLM) d’impasse. Quand un dirigeant transforme une question ouverte en procès des sceptiques, ce n’est plus la science qui parle. C’est la communication.

Réfuter une conjecture n’est pas prouver le scaling

L’argument massue d’Altman est spectaculaire : un modèle d’OpenAI aurait récemment réfuté une conjecture mathématique qui résistait depuis longtemps aux meilleurs esprits, au point que des mathématiciens s’interrogent désormais sur ce que cela signifie pour leur discipline. « Les LLM sont clairement capables de produire de nouvelles connaissances », en conclut-il.

Mettons les deux affirmations en regard. Réfuter une conjecture, c’est exhiber un contre-exemple ou une démonstration valide dans un espace mathématique fermé, vérifiable, où l’on sait dire avec certitude qui a raison. Prouver que le scaling continuera de payer, c’est parier sur une trajectoire empirique, ouverte, qu’aucune preuve formelle ne peut garantir.

La première relève de la logique. La seconde, de l’extrapolation. Altman emprunte l’autorité de l’une pour blinder l’autre. Le tour est habile : qui oserait contredire un théorème ? Sauf qu’aucun théorème n’a jamais établi que « plus gros égale mieux » indéfiniment.

Ce que le terrain observe vraiment

Altman concède d’ailleurs lui-même la faille, presque en passant. Sur les tâches à horizon long, celles qui exigent du jugement soutenu sur la durée, les modèles « semblent bien pires que les humains ». L’aveu vaut son pesant d’or : la machine qui terrasse une conjecture trébuche sur la conduite d’un projet ordinaire.

C’est exactement la ligne de fracture que le terrain remonte depuis des mois. Les modèles excellent par bouffées, sur des problèmes bornés et vérifiables. Ils peinent dès que la tâche s’étire, se ramifie, demande de tenir un cap sans supervision. Le débat sur le « mur » du scaling n’a jamais porté sur la capacité de pointe. Il porte sur le rendement : chaque ordre de grandeur supplémentaire coûte une fortune pour des gains de moins en moins lisibles côté usage réel.

Présenter une prouesse mathématique isolée comme la réfutation de ce doute, c’est répondre à côté de la question posée.

Deux récits qui ne parlent pas de la même chose

D’un côté, le récit d’Altman : le scaling est une voie royale, ses détracteurs sont des nostalgiques accrochés à leur ego, et les trolls de Twitter qui annoncent la chute d’OpenAI depuis des années peuvent bien continuer. Dario Amodei, à la tête d’Anthropic, tient des propos voisins. La concentration des plus gros acteurs autour de ce discours n’est pas un hasard : ce sont eux qui ont le plus investi dans les très grands modèles, donc le plus à perdre si le marché doute du rendement de cette mise.

De l’autre, le récit des sceptiques : les grands modèles sont une brique puissante mais incomplète, les modèles du monde comptent pour la robotique, et l’intelligence générale ne sortira pas mécaniquement d’une simple multiplication des paramètres. Altman lui-même accorde que les modèles du monde « comptent » pour certains usages. Les deux camps ont raison sur leur moitié de la réalité ; ils ne décrivent simplement pas le même objet.

La distinction n’a rien de théorique dès qu’il faut décider où placer son budget, son temps ou sa confiance. Croire le récit de la voie royale, c’est tout miser sur le prochain modèle géant et attendre qu’il résolve vos problèmes. Garder la tête froide, c’est tester ce que les outils font aujourd’hui, sur vos tâches à vous, et mesurer le rendement réel plutôt que la promesse.

La nuance tient en une phrase : un modèle qui réfute une conjecture prouve qu’il peut, parfois, dépasser l’humain sur un terrain fermé. Il ne prouve rien sur la pente qui mène à tout le reste. Confondre les deux, c’est précisément l’erreur qu’on reproche aux sceptiques, retournée comme un gant.

Sources

réfuté une conjecture mathématique

Scaling : Altman confond une preuve et une promesse

Une revanche déguisée en science

Réfuter une conjecture n’est pas prouver le scaling

Ce que le terrain observe vraiment

Deux récits qui ne parlent pas de la même chose

Sources

Un autre article ?

Refroidir l’IA à 45°C : le pari thermique de NVIDIA

ChatGPT perd 17 points : la fin de l’assistant unique

Canva débarque dans Gemini : la vraie bataille des IA

Laisser un commentaire Annuler la réponse