L’IA ne rêve plus le monde : elle apprend à y agir

L'IA ne rêve plus le monde : elle apprend à y agir

Une IA génère des vidéos à couper le souffle. Pourquoi serait-elle incapable de piloter le bras d’un robot ? La question semble naïve. Elle résume pourtant le basculement que vit l’IA générative en ce moment.

Il y a quelques jours, nous expliquions pourquoi les mondes générés oubliaient l’espace : un objet sortait du champ de la caméra, et le modèle l’effaçait purement et simplement de sa mémoire. Depuis, plusieurs travaux ont déplacé la ligne de front. Pas en rendant ces mondes plus beaux : en les rendant exploitables par une machine qui doit agir dedans.

Imaginer un monde, ce n’est pas savoir y agir

Commençons par le mécanisme. Un « modèle de monde » (world model) apprend à prédire comment une scène évolue : à partir d’une image et d’une instruction, il génère les images suivantes. C’est, au fond, un moteur d’imagination.

Le problème tient à une notion que les chercheurs de NVIDIA appellent le grounding gap : l’écart entre ce qu’un modèle sait du langage et ce qu’il sait réellement provoquer dans le monde physique. Comprendre l’instruction « attrape le mug rouge » est une chose. Produire la séquence de commandes motrices qui y parvient en est une autre.

Un générateur de vidéo, c’est un rêveur. Tant que l’image reste plausible, peu importe qu’un mug disparaisse quand la caméra tourne la tête. Un robot, lui, ne rêve pas : s’il a posé ce mug à droite, il doit le retrouver à droite, trois secondes plus tard, après avoir regardé ailleurs.

Du générateur passif à la politique d’action

D’où la catégorie que NVIDIA vient de nommer : les World-Action Models (WAM, modèles monde-action). L’idée : reprendre un backbone vidéo (l’ossature d’un modèle déjà entraîné), comme la famille Wan ou le modèle Cosmos de NVIDIA, et l’adapter non plus pour produire de jolies images, mais pour émettre des actions.

Techniquement, le modèle apprend la prédiction conjointe (joint prediction) : à partir d’une observation et d’une consigne, il prédit d’un même geste les images futures et la séquence d’actions qui les produit. La fidélité visuelle cesse d’être le but. Elle devient un sous-produit de la cohérence physique.

Comment apprend-on ce lien entre image et geste ? Souvent par dynamique inverse (inverse dynamics) : on montre au modèle une situation de départ et une situation d’arrivée, et on lui demande de retrouver l’action qui mène de l’une à l’autre. De proche en proche, il associe les transformations visibles aux commandes qui les causent.

C’est ce qui distingue ces WAM des VLA (Vision-Language-Action), les politiques de robot bâties sur un modèle vision-langage. Là où le VLA hérite surtout d’un sens sémantique, le WAM hérite d’un sens du temps : il sait comment une scène se déforme, image après image. C’est la voie qu’a choisie Google DeepMind avec Gemini Robotics, sa famille de modèles vision-langage-action pour piloter des robots.

Mémoire et géométrie, les deux verrous qui sautent

Restait à régler ce fameux oubli de l’espace. C’est précisément ce qu’attaque DreamX-World 1.0, un modèle interactif texte/image-vers-vidéo présenté cette semaine. Son mécanisme de Memory-Conditioned Scene Persistence va rechercher les vues déjà observées en s’appuyant sur la géométrie de la caméra : le monde généré garde la trace de ce qu’il a montré, et le retrouve quand on y revient.

Les chiffres situent le niveau. Sur son évaluation de référence, DreamX-World 1.0 obtient un score global de 84,76, devant HY-WorldPlay 1.5 (80,79) et LingBot-World (80,45), tout en tournant jusqu’à 16 images par seconde sur huit cartes RTX 5090. De la vidéo cohérente, en quasi-temps réel.

Un second travail va plus loin encore. Le Geometric Action Model (GAM) part d’un constat gênant : VLA comme WAM raisonnent surtout sur des images en 2D, alors que manipuler un objet réel exige de comprendre la géométrie 3D des contacts. GAM réutilise donc un modèle de fondation géométrique (geometric foundation model) comme socle commun à la perception, à la prédiction du futur et au décodage de l’action. Le résultat ? Une politique plus précise, plus robuste, mais aussi plus rapide et plus légère que les références à l’échelle des modèles de fondation.

Ce que ça change pour qui orchestre l’IA

Pour un praticien, le signal est clair : la frontière entre IA générative et IA incarnée s’efface. Le même backbone vidéo qui produisait des clips sert désormais de cerveau perceptif à un robot. Celui qui maîtrise les modèles de génération n’est plus très loin de celui qui pilote une machine.

Et la facture suit. VisualClaw, un agent multimodal pensé pour le monde physique, illustre l’autre versant du problème : agir en continu coûte cher en calcul. En filtrant les images peu informatives d’un flux vidéo, il fait passer une session d’une heure de streaming de près de 3 600 appels d’API à seulement 5 à 20, soit jusqu’à 98 % de coût en moins. Sans cette efficacité, ces modèles resteraient des démonstrations de laboratoire.

Le critère qui compte vient donc de changer. Pendant des mois, on jugeait un modèle de monde à la beauté de ses images. On le jugera désormais à autre chose : sa capacité à tenir un espace dans la durée, à le rendre en 3D, et à le faire assez vite pour qu’un bras mécanique s’en serve. La vidéo n’était qu’une étape. L’enjeu, maintenant, c’est l’action, et c’est une tout autre exigence.

Sources

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *