Kyutai refuse le world model unique, et c’est calculé

Kyutai refuse le world model unique, et c'est calculé

Le scénario est connu : le world model (modèle capable de simuler le monde pour mieux y agir) serait la prochaine grande brique vers l’IA générale, et la course consisterait à bâtir le plus gros, le plus universel, celui qui avalera tout. Un cerveau unique pour la vidéo, la robotique, la conduite, le jeu.

Sauf que le laboratoire français Kyutai dit l’inverse. Et ce n’est pas une posture de circonstance : c’est un choix de stratégie.

Plusieurs modèles, pas un monstre

Alexandre Défossez, cofondateur et chief exploration officer de Kyutai, l’a posé sans détour à l’occasion de VivaTech : le laboratoire créera « plusieurs world models selon les cas d’usage ». Là où la course fantasme un modèle-socle qui simulerait tout, Kyutai assume la fragmentation.

L’idée mérite qu’on s’y arrête, parce qu’elle prend le contre-pied d’un présupposé rarement remis en question : que la généralité maximale serait toujours supérieure. Un modèle entraîné pour simuler une scène vidéo, un autre pour anticiper la trajectoire d’un véhicule, un troisième pour un bras robotique, ce ne sont pas les mêmes contraintes de latence, de précision, de données. Vouloir tout faire avec un seul réseau, c’est souvent tout faire moyennement.

Le world model est d’ailleurs présenté comme « le petit dernier » des axes du labo, après la voix et la vision. Kyutai ne s’y lance pas pour planter un drapeau sur l’AGI, mais pour s’attaquer à des problèmes concrets : robotique, conduite autonome, vision. La spécialisation n’est pas un repli, c’est la conséquence logique de partir des usages plutôt que d’une promesse abstraite.

Une trajectoire qui valide la méthode

Ce parti pris n’arrive pas de nulle part. Kyutai a démarré en 2023 à six personnes, en est aujourd’hui à vingt-deux, et a construit sa réputation sur un objet très précis : la voix en speech-to-speech full duplex, cette conversation où chacun parle à tout moment, se coupe, relance. C’est ce qui a donné Moshi il y a deux ans, présenté comme une première mondiale, puis MoshiVis pour ajouter la compréhension d’image fixe, la vidéo étant le prochain front.

Aucun de ces modèles n’a cherché à tout faire. Chacun a poussé loin une capacité précise. Et c’est précisément ce qui a rendu Moshi réutilisable : PersonaPlex, de Nvidia, est construit dessus ; côté synthèse vocale, Qwen TTS en reprend une partie. Un modèle spécialisé et ouvert devient une brique sur laquelle d’autres bâtissent. Un monolithe fermé, beaucoup moins.

On tient là l’argument de fond de Kyutai, et il est moins idéologique qu’industriel : la spécialisation, couplée à l’ouverture, maximise la réutilisation. Plusieurs world models ciblés, chacun adopté dans sa niche, peuvent peser davantage qu’un modèle géant que personne d’extérieur ne peut faire tourner ni adapter.

L’ouverture comme levier, pas comme principe moral

Car Kyutai revendique un positionnement rare : être, selon Défossez, le seul laboratoire de recherche de pointe « entièrement ouvert ». Code, modèles, démos publiques. On pourrait y voir une simple conviction open science. C’est sous-estimer le calcul qui la sous-tend.

L’ouverture est ce qui transforme une stratégie de modèles spécialisés en écosystème. Quand un labo publie un modèle voix performant et libre, les téléchargements sur Hugging Face et les stars sur GitHub ne sont pas de simples chiffres flatteurs : ils signalent une adoption qui attire ensuite collaborations industrielles et reprises par d’autres éditeurs. Défossez l’admet, des entreprises viennent construire sur l’écosystème du labo, sans qu’il puisse encore toutes les nommer.

Le signal est limpide. La valeur d’un modèle, ce n’est plus seulement sa performance brute en interne, c’est sa capacité à devenir un standard que d’autres adoptent. Un world model spécialisé, ouvert et bien documenté a plus de chances de s’imposer comme socle qu’un modèle universel verrouillé.

Les angles morts du pari

Reste que ce contre-pied a ses fragilités, et il serait malhonnête de les taire. Multiplier les world models, c’est multiplier les efforts d’entraînement, de maintenance et de données, là où un acteur comme DeepMind concentre des moyens colossaux sur un modèle unique : son Genie 3, présenté comme un monde général explorable et une étape vers l’IA générale, incarne le pari exactement inverse. La fragmentation utile peut virer à la dispersion si les ressources ne suivent pas.

Kyutai en a conscience : sa survie passe par l’accès au compute, d’où le travail avec Scaleway côté Iliad, et par des déploiements concrets, comme la synthèse vocale des articles de presse menée avec CMA CGM et La Provence. Vingt-deux personnes, même brillantes, ne joueront pas le même jeu de force brute que les géants. Le pari n’est donc pas de gagner la course au plus gros modèle. C’est de la rendre secondaire.

Et c’est peut-être là que le choix devient intéressant à observer. Si l’avenir des world models tient dans une poignée de modèles géants propriétaires, Kyutai aura misé à côté. S’il tient dans une constellation de modèles spécialisés que les développeurs assemblent selon leurs besoins, alors le labo français aura simplement vu plus tôt ce que la course au modèle unique préférait ignorer.

Sources

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *