Computer use dans Gemini Flash : le RPA en sursis

Google vient de glisser le computer use dans Gemini 3.5 Flash, son modèle le moins cher. Ce qui passait pour une démonstration premium devient une fonction de base, livrée nativement. Et ce déplacement en dit plus long que l’annonce elle-même.

Jusqu’ici, faire piloter un écran par une IA supposait un modèle dédié, le Gemini 2.5 computer use, isolé du reste. Désormais, la capacité est intégrée directement dans le modèle Flash généraliste : un agent peut voir une interface, raisonner dessus et agir, sur navigateur comme sur mobile ou bureau. Le changement n’est pas technique, il est tarifaire.

Le pilotage d’écran quitte le haut de gamme

Le détail qui compte tient en un mot : Flash. Dans la gamme de Google, c’est le palier économique, celui qu’on appelle à grande échelle sans regarder la facture. Y loger une fonction d’automatisation d’écran, c’est décider qu’elle n’a plus à être rationnée.

Et la qualité suit le mouvement : sur OSWorld, le banc d’essai qui mesure justement ce pilotage d’écran, ce Flash bon marché se hisse au niveau du Sonnet premium d’Anthropic. La capacité descend de gamme sans se dégrader.

Selon l’annonce de Google DeepMind, cette intégration vise les tâches longues et l’automatisation d’entreprise : tests logiciels en continu, travail documentaire à travers des applications professionnelles. Autrement dit, le créneau exact que se partageaient jusqu’ici les outils de RPA (Robotic Process Automation, l’automatisation de processus par robots logiciels) et les agents premium facturés au prix fort.

Quand l’agent qui clique devient une commodité

Le RPA classique repose sur des scripts rigides : on enregistre des clics, on désigne des coordonnées ou des sélecteurs, et la moindre refonte d’interface casse le robot. Un modèle qui regarde l’écran et décide quoi faire ne casse pas de la même manière, parce qu’il lit l’interface plutôt que d’en mémoriser la géométrie.

Toute une couche d’éditeurs s’est construite comme intermédiaire : des wrappers (des surcouches logicielles) qui orchestrent un modèle, gèrent le navigateur, vendent la fiabilité par-dessus. Quand la capacité descend dans le modèle de base, ce coussin se comprime. Pour illustrer, Google montre 3.5 Flash analysant l’application Gemini pour en restituer une liste de fonctionnalités classées, ou auditant sa propre documentation à la recherche de problèmes d’accessibilité. Des tâches que beaucoup vendaient encore comme du sur-mesure.

La sécurité, vrai goulot de l’adoption

Reste le risque qui plombe tout agent lâché dans un environnement vivant : l’injection de prompt indirecte, ces instructions piégées glissées dans une page web ou un document que l’agent lit, et qui détournent son comportement. Google dit avoir mené un entraînement adverse ciblé pour le contenir.

@_philschmid sur X

L’éditeur publie aussi deux garde-fous optionnels pour les entreprises : exiger une confirmation explicite avant les actions sensibles ou irréversibles, et arrêter automatiquement une tâche dès qu’une injection est détectée. Le discours assume une approche en défense en profondeur, à combiner avec du sandboxing (le cloisonnement de l’exécution), une validation humaine dans la boucle et des contrôles d’accès stricts.

C’est honnête, et c’est révélateur. Si Google insiste autant sur les garde-fous, c’est que la fiabilité brute ne suffit pas encore à confier les clés sans surveillance. La commodité technique précède la confiance opérationnelle.

La trajectoire : ce qui se joue dans les douze mois

Posons un pari daté plutôt qu’un prudent « l’avenir nous le dira ». À douze mois, le sort des wrappers RPA généralistes se décide sur une seule question : qu’apportent-ils que le modèle ne fait pas déjà nativement ?

Trois scénarios se dessinent. Les outils qui ne sont qu’une surcouche de pilotage d’écran voient leur valeur fondre à mesure que la capacité se banalise dans les API. Ceux qui apportent l’orchestration métier, la conformité, l’observabilité et la gestion d’identité tiennent, parce que ce sont précisément les briques que Google laisse à l’intégrateur. Et une troisième catégorie émerge : des éditeurs qui se replient sur la couche sécurité et gouvernance, là où l’annonce d’aujourd’hui désigne le manque.

La condition de réalisation, c’est la fiabilité réelle sur des tâches longues, hors démonstration. Un agent qui réussit neuf fois sur dix n’est pas exploitable en production sans humain derrière. C’est là que l’écart se creusera entre l’effet d’annonce et l’usage facturable.

Le point de bascule à surveiller

Le signal à guetter n’est pas la prochaine démonstration spectaculaire. C’est le moment où une entreprise remplacera un déploiement RPA existant par un agent Flash, garde-fous activés, et le laissera tourner sans surveillance permanente sur une tâche critique.

Ce jour-là, le pilotage d’écran aura vraiment changé de catégorie : d’option premium à infrastructure banale. En descendant la fonction sur son palier le moins cher, Google a posé la première pièce. La suite dépend moins du modèle que de ceux qui oseront lui confier un mot de passe.

Computer use dans Gemini Flash : le RPA en sursis

Le pilotage d’écran quitte le haut de gamme

Quand l’agent qui clique devient une commodité

La sécurité, vrai goulot de l’adoption

La trajectoire : ce qui se joue dans les douze mois

Le point de bascule à surveiller

Sources

Un autre article ?

Claude Tag : l’identité d’agent, angle mort du buzz

Sakana Fugu : l’orchestre de LLM qui vise Fable 5

IA en entreprise : le meilleur modèle ne suffit plus

Laisser un commentaire Annuler la réponse