Quand l’IA passe du décor à la scène

Pendant dix ans, la vision par ordinateur a appris à nommer ce qu’elle voyait : un chat, une voiture, un visage. Aujourd’hui, elle change de métier. Elle ne veut plus seulement reconnaître la scène, elle veut la refaire.

Trois travaux publiés le même jour, sans concertation, racontent la même histoire vue sous trois angles. Insérer un objet en trois dimensions sans casser la cohérence. Apprendre le mouvement avec presque rien. Raisonner sur une vidéo plutôt que la décrire. Trois briques d’un objectif commun : des mondes générés qui tiennent debout.

Insérer un objet, pas le coller

Le premier travail, baptisé DIRECT, s’attaque à un geste banal en apparence : poser un objet dans une image existante. Les méthodes récentes, fondées sur la diffusion (les mêmes modèles qui génèrent des images à partir de texte), savent déjà le faire avec un rendu propre. Mais elles traitent l’opération comme un simple remplissage en 2D, une retouche à plat. Résultat : aucun contrôle sur la pose de l’objet, son orientation, sa profondeur.

DIRECT décompose le problème en trois flux séparés : l’apparence tirée de l’objet de référence, la géométrie issue d’un proxy 3D que l’utilisateur ajuste, et le contexte du décor d’accueil. En injectant ces signaux par des chemins distincts, le modèle évite que les caractéristiques se contaminent entre elles. L’objet garde son allure, adopte la pose voulue, et s’intègre à la lumière de la scène.

La nuance compte. On ne demande plus à l’image d’être jolie, on lui demande d’être juste dans l’espace. C’est la différence entre un autocollant et un meuble qu’on pose vraiment dans une pièce.

Et si moins de données valait mieux que plus ?

Le deuxième travail prend l’industrie à contre-pied. LIMMT, pour « Less Is More for Motion Tracking », s’intéresse au suivi de mouvement pour humanoïdes simulés par la physique : apprendre à un personnage virtuel à reproduire un geste humain de façon crédible.

Le réflexe du secteur consiste à engloutir des montagnes de captures de mouvement. Les auteurs montrent l’inverse. En entraînant leur modèle sur moins de 3 % du jeu de données AMASS, référence du domaine, ils obtiennent de meilleurs résultats qu’avec la base complète.

Leur thèse : la qualité des données oriente la trajectoire d’apprentissage dès le départ. Ils ne se contentent pas de retirer les clips erronés, ils définissent la qualité selon trois axes :

la faisabilité physique du mouvement ;
la diversité des gestes représentés ;
la complexité des séquences.

Pour quiconque orchestre des modèles au quotidien, le message est limpide. Le vrai levier n’est pas toujours le volume de données, c’est leur tri. Un petit corpus propre bat un grand corpus bruité. Cela coûte moins cher à entraîner, et ça cadre mal avec le dogme du « toujours plus ».

Regarder, retenir, raisonner

Le troisième travail s’attaque à la vidéo, terrain le plus exigeant. Comprendre un clip, ce n’est pas seulement le légender. C’est suivre une intrigue dans le temps, retenir un détail vu trois minutes plus tôt, déduire ce qui n’est pas montré.

L’étude propose une grille de lecture en trois fonctions : regarder, retenir, raisonner. La perception fine d’abord, audio et visuelle. La mémoire ensuite, capable de traiter de longues vidéos sans tout réanalyser à chaque instant. Le raisonnement enfin, qui produit une réponse ancrée dans ce qui a été réellement vu, et non plausible en général.

Cette décomposition n’est pas qu’académique. Elle pointe les points de rupture des modèles actuels : la dépendance à longue portée, l’alignement entre image et son, l’inférence fiable sous budget de calcul contraint. Au bout du compte, c’est une carte des chantiers qui restent ouverts, plutôt qu’un énième classement sur un test fermé.

Trois travaux, un même déplacement

Mis côte à côte, ces papiers dessinent une mutation de fond. La vision quitte le registre de l’étiquette pour celui de l’acte. Insérer un objet cohérent suppose de modéliser un espace 3D, pas seulement des pixels. Suivre un mouvement crédible suppose une physique, pas une moyenne statistique. Raisonner sur une vidéo suppose une mémoire, pas une succession d’images muettes.

Le fil conducteur est la cohérence du monde généré. On ne juge plus une sortie à sa beauté apparente, mais à sa tenue : l’objet respecte-t-il la perspective, le geste respecte-t-il la gravité, le raisonnement respecte-t-il ce qui a été montré ? La barre monte, et elle change de nature. Le souci n’est d’ailleurs pas propre à ces trois laboratoires : chez Google DeepMind, le modèle de monde Genie 3 bute exactement sur le même mur, celui de garder un environnement cohérent plusieurs minutes durant plutôt que de produire une belle image isolée.

Cependant, prudence. Ces résultats sortent de laboratoires, sur des protocoles choisis par leurs auteurs. Aucun n’a encore affronté la diversité brutale du réel à grande échelle. Le proxy 3D de DIRECT réclame un geste humain, le tri de LIMMT suppose qu’on sache déjà juger la qualité d’un mouvement, et la grille vidéo reste une cartographie de problèmes davantage qu’une solution livrée.

Pour autant, la direction est nette. Les outils de demain ne se demanderont plus seulement « qu’est-ce que je vois ? », mais « comment le recomposer sans que ça sonne faux ? ». C’est un métier différent, avec d’autres exigences et d’autres pièges.

Reste à voir lequel cédera le premier : la qualité des mondes que ces modèles fabriquent, ou notre capacité à distinguer ce qui tient debout de ce qui fait seulement illusion.

Qu'est-ce que vous cherchez ?

Quand l’IA passe du décor à la scène

Insérer un objet, pas le coller

Et si moins de données valait mieux que plus ?

Regarder, retenir, raisonner

Trois travaux, un même déplacement

Sources

Un autre article ?

Claude 3.5 Sonnet : La Nouvelle Référence en IA Générative

V2A : La Technologie de Google DeepMind qui Génère l’Audio à Partir d’une Vidéo

Détecter les erreurs de GPT-4 avec CriticGPT : Une Nouvelle Ère de l’IA

Laisser un commentaire Annuler la réponse