
Google vient de remplacer la porte d’entrée de ses modèles Gemini. Exit generateContent, l’interface historique : place à l’Interactions API, désormais activée par défaut dans Google AI Studio et dans toute la documentation. À première vue, un détail de plomberie. En réalité, une réécriture de la grammaire avec laquelle on s’adresse aux agents.
Au fait, c’est quoi une API de modèle ?
Posons la question naïve. Quand un développeur veut faire « parler » un modèle de langage, il ne discute pas avec lui : il envoie une requête structurée à une API (l’interface de programmation qui sert de guichet entre son code et le modèle). Cette requête dit qui parle, ce qu’on demande, quels outils le modèle a le droit d’utiliser. La forme de ce guichet n’est pas neutre : elle conditionne tout ce qu’on peut exprimer.
Depuis les débuts des modèles conversationnels, ce guichet repose sur une logique de rôles. On empile des messages étiquetés « user » (l’utilisateur) et « model » (la réponse de l’IA), parfois « system » pour les consignes. Un dialogue, en somme, transcrit en liste de répliques. C’est ce que faisait generateContent, et c’est devenu le standard de fait du secteur.
De la conversation aux étapes typées
L’Interactions API, en bêta depuis décembre 2025 et désormais accessible à tous, casse ce modèle. Fini l’alternance de rôles : chaque action devient une « étape » (step) typée et déclarée. Une saisie de l’utilisateur est une étape. Un appel de fonction en est une autre. Le résultat renvoyé par l’outil, encore une autre. Chaque maillon de la chaîne porte désormais son type explicite.
L’analogie tient si l’on compare deux façons de raconter une enquête. Le modèle par rôles, c’est la transcription brute d’un interrogatoire : on sait qui a dit quoi, mais l’enchaînement des actions reste implicite. Le modèle par étapes typées, c’est le procès-verbal structuré : chaque geste est catégorisé, horodaté, traçable. Pour un humain qui lit, la différence est mince. Pour une machine qui doit enchaîner des dizaines d’actions sans se perdre, elle est décisive.
Le résultat ? Un agent qui combine recherche web, appel à une carte, génération d’image et exécution de code n’est plus un fil de discussion qu’on bricole. C’est une séquence d’étapes que l’infrastructure comprend nativement.
Ce que le nouveau guichet débloque
Ce n’est pas un hasard si le changement arrive avec une vague de fonctionnalités pensées pour l’agentique. Google a greffé sur l’Interactions API des Managed Agents dotés de leur propre bac à sable Linux, l’exécution en arrière-plan pour les tâches longues, le chaînage d’outils avec Google Search et Maps, et la génération d’images, de musique et de parole.
Toutes ces briques supposent un suivi fin de l’état : savoir où en est l’agent, quelle action vient de s’achever, laquelle attend un résultat. Un format en étapes typées rend cet état lisible par construction. Un format en rôles obligeait à le reconstituer à la main. La nouvelle grammaire n’est donc pas un habillage : elle est la condition de l’outillage qui l’accompagne.
Côté coûts, deux régimes coexistent. Le mode Flex réduit la facture de 50 % en échange d’une latence plus souple ; le mode Priority optimise la vitesse. Une dualité qui dit l’usage visé : des agents tournant en masse en arrière-plan d’un côté, des interactions temps réel de l’autre.
Pourquoi ça change quelque chose
L’ancienne API continue de fonctionner, et Google a publié un guide de migration. Mais la phrase qui compte est ailleurs : les nouvelles fonctionnalités agentiques ne sortiront que via l’Interactions API. Autrement dit, rester sur generateContent, c’est se condamner à un Gemini figé pendant que le reste avance.
« Interactions pose le décor de la nouvelle ère des agents », résume Logan Kilpatrick, responsable des relations développeurs chez Google. La formule est marketing, l’enjeu réel. Car qui définit la grammaire définit le terrain. Le modèle par rôles avait un mérite : il était devenu un quasi-standard partagé, ce qui rendait le code relativement portable d’un fournisseur à l’autre. En imposant sa propre structure d’étapes, Google ancre l’outillage agentique futur sur ses rails à lui.
Les équipes qui ont bâti leurs agents sur Gemini voient leur dépendance se renforcer d’un cran. Migrer vers l’Interactions API, c’est adopter une logique propre à Google, plus difficile à transposer ailleurs qu’une simple liste de messages. Le coût de sortie monte sans qu’on l’ait vu venir.
Un signal pour tout le secteur
Reste une zone d’ombre : nul ne sait encore si les autres acteurs convergeront vers une grammaire d’étapes comparable, ou si chacun imposera la sienne. Le mouvement n’est en tout cas pas isolé : OpenAI a déjà franchi un pas voisin avec sa Responses API, qui troque la liste de messages contre des éléments typés (message, raisonnement, appel d’outil) pour ses workflows agentiques. Dans le premier cas, le secteur gagne un langage commun pour les agents. Dans le second, chaque écosystème devient une île, et la portabilité du code agentique s’évapore.
Ce qui se joue derrière ce changement d’API dépasse donc Gemini. C’est la question de savoir sur quelle grammaire se construira la prochaine génération d’agents, et qui en tiendra la plume. Google vient de poser sa version. À surveiller : celles que poseront ses concurrents.
