NVIDIA Cosmos 3 : un seul modèle pour penser et agir dans le réel

Jusqu’ici, faire raisonner une machine sur le monde physique tenait du bricolage : un modèle pour générer la vidéo, un autre pour comprendre la scène, un troisième pour décider de l’action. NVIDIA prétend tout réunir en un seul. Avec Cosmos 3, disponible dès aujourd’hui sur Hugging Face, le fabricant ne livre pas une énième brique : il livre la fusion.

de la mosaïque de modèles à l’omni-modèle

Le vrai changement n’est pas la puissance brute, c’est l’architecture. Les versions précédentes de Cosmos imposaient de jongler entre des modèles spécialisés : Cosmos Predict pour générer un monde, Cosmos Transfer pour la génération contrôlée, Cosmos Reason pour comprendre une scène, Cosmos Policy pour produire une politique d’action. Quatre modèles, quatre pipelines d’inférence, quatre points de friction.

Cosmos 3 balaie cet empilement. NVIDIA le qualifie d’omni-modèle : une seule IA qui raisonne et génère plusieurs modalités en une passe unifiée. Le résultat ? Un même modèle peut désormais générer des mondes vidéo réalistes et physiquement plausibles à partir de texte, d’images, de vidéos ou d’actions ; raisonner sur le mouvement, la causalité et les relations spatiales ; et prédire les séquences de vidéo et d’action à venir à partir de l’état présent.

On passe de l’outil à la fondation. C’est toute la différence.

ce que cache la « Mixture-of-Transformers »

Sous le capot, Cosmos 3 repose sur une ossature dite MoT (Mixture-of-Transformers, un assemblage de transformeurs spécialisés au sein d’une même architecture). L’idée : traiter texte, image, vidéo, audio et action dans un seul cadre, sans cloisonner les compétences.

Chaque modalité est d’abord encodée par un encodeur dédié — un ViT (Vision Transformer, réseau de vision) pour la compréhension visuelle, un VAE (auto-encodeur variationnel) pour la génération d’images et de sons, et des vecteurs « spécifiques au domaine » pour les actions. Ces signaux sont ensuite projetés dans un espace de représentation commun, une sorte de langue interne partagée par toutes les modalités.

La trouvaille tient à la séparation du flux en deux sous-séquences :

une sous-séquence autorégressive (AR), qui gère le raisonnement et la compréhension par prédiction du prochain jeton, à la manière des grands modèles de langage ;
une sous-séquence de diffusion (DM), qui gère la génération par débruitage itératif, comme les modèles d’images et de vidéo.

Ces deux régimes utilisent des paramètres distincts dans chaque couche, mais communiquent via une attention conjointe. Comprendre et créer cessent d’être deux mondes étanches.

pourquoi l’IA physique change de catégorie

L’enjeu n’est pas cosmétique. Une IA qui manipule des pixels et des jetons reste aveugle au réel ; une IA physique, elle, doit intégrer le mouvement, la causalité, la physique et l’action. C’est précisément le terrain que NVIDIA revendique pour Cosmos 3.

NVIDIA n’est pourtant pas seul à convoiter ce terrain : Google DeepMind, avec Genie 3, génère des mondes interactifs explorables en temps réel, et World Labs, la jeune pousse de Fei-Fei Li, mise sur la simulation la plus fidèle possible au réel. La singularité de Cosmos 3 est ailleurs : fondre le raisonnement, la génération et l’action dans un seul modèle, là où ses concurrents restent avant tout des générateurs de mondes.

Les cas d’usage que l’entreprise met en avant disent bien la cible :

entraîner un robot à plier du linge ;
construire des simulations de conduite autonome, y compris les scénarios rares dits de « longue traîne » ;
générer des données synthétiques pour des scénarios de sécurité en entrepôt, par exemple à partir d’une simple image transformée en vidéo.

NVIDIA montre aussi un raisonnement « chaîne de pensée » appliqué à la conduite autonome — la machine ne se contente plus de produire une image, elle explicite une suite de déductions. Pour quiconque entraîne un robot ou une voiture, la promesse est limpide : moins de plomberie logicielle, davantage de monde simulé.

une fondation ouverte, et c’est peut-être le vrai signal

Le geste technique compte ; le geste d’ouverture compte autant. Cosmos 3 ne se résume pas à un modèle posé en ligne. NVIDIA déploie un écosystème : deux variantes, Cosmos 3 Super et Cosmos 3 Nano, accompagnées de leurs cartes de modèle et de leur licence ; une intégration à Diffusers pour les pipelines de génération ; des scripts de post-entraînement, sur GitHub, pour réentraîner Cosmos 3 sur ses propres données ; et des jeux de données ouverts de génération de données synthétiques (SDG) pensés pour l’IA physique.

Autrement dit, le modèle arrive avec les outils pour le plier à ses besoins. Pour un développeur en robotique ou en véhicule autonome, ce n’est pas un détail : c’est la différence entre une démonstration et une brique réutilisable.

Cependant, restons mesurés. NVIDIA est à la fois l’auteur du modèle et le fournisseur des puces sur lesquelles il tourne le mieux. Une fondation ouverte qui consolide l’écosystème autour de son propre matériel, c’est une générosité qui n’est jamais tout à fait désintéressée. L’ouverture du code ne dit rien, à elle seule, de la robustesse du modèle face aux situations que la simulation n’a jamais vues.

la simulation suffira-t-elle à dompter le réel ?

Cosmos 3 acte une bascule : le monde physique devient un terrain de jeu pour un modèle unique, capable de l’imaginer, de le comprendre et d’y agir. C’est un pas net vers l’IA incarnée — une IA qui ne se contente plus de parler du monde, mais qui apprend à s’y mouvoir.

Reste la question que ces démonstrations ne tranchent pas : un robot qui plie du linge dans une vidéo générée le pliera-t-il aussi bien dans une vraie buanderie ? La fracture entre le monde simulé et le monde réel — ce que les roboticiens appellent le sim-to-real gap — demeure le juge de paix. La question n’est plus de savoir si l’IA peut rêver le monde physique, mais si ce qu’elle en rêve tiendra debout une fois confronté à la matière.

Sources

Welcome NVIDIA Cosmos 3: The First Open Omni-model for Physical AI Reasoning and Action — Hugging Face

Qu'est-ce que vous cherchez ?

NVIDIA Cosmos 3 : un seul modèle pour penser et agir dans le réel

de la mosaïque de modèles à l’omni-modèle

ce que cache la « Mixture-of-Transformers »

pourquoi l’IA physique change de catégorie

une fondation ouverte, et c’est peut-être le vrai signal

la simulation suffira-t-elle à dompter le réel ?

Sources

Un autre article ?

Nemotron 3 Ultra : NVIDIA mise 5x plus vite sur vos agents IA

Gemini Enterprise : +34 % de fiabilité avec l’agentic RAG

Grok débarque dans le terminal : ce que change vraiment Grok Build

Laisser un commentaire Annuler la réponse