Gemini Enterprise : +34 % de fiabilité avec l'agentic RAG Gemini Enterprise : +34 % de fiabilité avec l'agentic RAG

Gemini Enterprise : +34 % de fiabilité avec l’agentic RAG

Google muscle le RAG avec une approche multi-agents capable d’enchaîner les recherches. Jusqu’à 34 % de précision en plus sur les questions métier complexes.

Le RAG (Retrieval-Augmented Generation, soit la génération de texte augmentée par une recherche documentaire) a fait entrer les modèles de langage dans l’entreprise. Mais il bute sur une limite que tout le monde a fini par ressentir : il ne sait poser qu’une seule question à la fois.

Google annonce une parade. Sa nouvelle brique « agentic RAG », hébergée sur le Gemini Enterprise Agent Platform, revendique jusqu’à 34 % de précision supplémentaire sur les jeux de données de factualité (qui mesurent l’exactitude des faits). Un chiffre qui mérite qu’on regarde sous le capot.

Pourquoi le RAG classique échoue sur les vraies questions

Le RAG d’aujourd’hui fonctionne en une seule étape. Vous posez une question, le système cherche les documents qui y ressemblent, et un modèle de langage rédige la réponse. Efficace pour une demande simple. Insuffisant dès que l’information se cache à plusieurs endroits.

Google prend un exemple parlant. Vous demandez : « Quelles sont les caractéristiques du serveur utilisé dans le Projet X ? » Le système retrouve bien les documents du Projet X, mais ceux-ci ne mentionnent qu’un identifiant de serveur. Il faudrait alors prendre cet identifiant et lancer une seconde recherche dans une autre base pour obtenir les fameuses spécifications.

Le RAG classique, lui, ne sait pas faire ce deuxième pas. Résultat : une réponse partielle, ou un « information introuvable » alors que la donnée existe bel et bien. Elle est simplement éparpillée sur des « îlots » de données distincts.

Le RAG agentique : non plus un moteur, mais un service de recherche

L’idée centrale tient en un mot : itération. Plutôt qu’une recherche unique, l’agentic RAG planifie, raisonne et dialogue plusieurs fois de suite avec les sources jusqu’à reconstituer la réponse complète.

Pour le comprendre, Google propose une image juste : ne voyez plus un moteur de recherche solitaire, mais un véritable service de recherche organisé, où chaque agent occupe un rôle précis.

  • L’Orchestrateur évalue votre demande et tranche : « Ce n’est pas un travail en une étape. » Puis il délègue.
  • L’agent Planificateur trace les chemins d’information. Pour une question sur le budget et le calendrier d’un projet, il décide : d’abord la base financière, ensuite les journaux de gestion de projet.
  • Le Réécrivain de requêtes traduit votre demande floue en plusieurs requêtes nettes. « Où en est le Projet X ? » devient « Rapport d’avancement Projet X T3 » et « Principaux points de blocage de l’équipe Projet X ».
  • L’agent de Diffusion de recherche (Search Fanout) envoie ces requêtes affinées vers les différentes sources et collecte les fragments.
  • Enfin, un modèle de langage agrège tout ce contexte pour livrer la réponse finale.

Ce n’est pas une recherche plus grosse. C’est une recherche mieux découpée.

La vraie différence ? Savoir qu’on ne sait pas encore

D’autres acteurs avancent dans la même direction : Anthropic, par exemple, fait reposer son système de recherche sur un agent chef qui délègue à des sous-agents une recherche itérative, par opposition au RAG statique — une architecture cousine de l’orchestrateur de Google. Alors qu’apporte ce dernier de plus ? Un mot, là encore : la persistance.

Le cadre de Google intègre de quoi vérifier s’il dispose d’assez d’éléments pour répondre avec exactitude. Tant que le contexte est incomplet, il continue de chercher. Concrètement, cela empêche deux dérives bien connues : l’IA qui « devine » quand la première recherche revient les mains vides, et l’IA qui se réfugie trop vite derrière un « je n’ai pas assez d’informations ».

Cette seconde réponse est parfois la bonne, reconnaît Google. Mais souvent, l’information est là — il fallait simplement aller la chercher.

L’exemple choisi par Google n’est pas anodin : un médecin qui interroge le système sur les médicaments de sortie d’un patient après une opération du genou, ses restrictions alimentaires et d’éventuelles réactions allergiques durant le séjour. Trois informations, trois sources potentiellement différentes, une seule question. Le terrain exact où le RAG en une étape s’effondre, et où une réponse approximative ne pardonne pas.

34 % de précision en plus : que faut-il en retenir ?

Le chiffre avancé est net : jusqu’à 34 % de précision supplémentaire sur les jeux de données de factualité par rapport à un RAG standard. Google affirme aussi avoir testé son système sur des données internes propriétaires, avec un meilleur ancrage dans les sources (le « grounding ») et un raisonnement plus juste sur des tâches spécialisées.

Gardons toutefois la tête froide. Le « jusqu’à 34 % » est un plafond, pas une moyenne, et les évaluations restent celles de l’éditeur. Cependant, la direction est cohérente : sur des questions multi-sources et multi-étapes, additionner des agents spécialisés capables de relancer une recherche bat mécaniquement une recherche unique.

Le vrai apport n’est peut-être pas le score. C’est le changement de posture : une IA qui assume de chercher en plusieurs temps plutôt que de répondre vite et mal.

La question n’est donc pas de savoir si le RAG va devenir agentique — la bascule est engagée. Elle est de savoir jusqu’où nous accepterons de laisser ces agents fouiller nos « îlots » de données métier, et à quel prix en latence et en supervision. Reste à voir si la fiabilité promise tiendra hors des jeux de tests, là où les vraies questions se posent.

Sources

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *