Steering, full-duplex et WAM légers : les agents IA deviennent enfin production-ready

De la détection d’hallucinations Whisper par steering de représentations cachées au full-duplex LLM et aux World Action Models légers : des avancées concrètes sur la fiabilité et l’action en temps réel.

Les agents IA restent souvent des prototypes fragiles, prompts à halluciner ou à peiner en interaction réelle. Pourtant, trois papiers récents sur Hugging Face tracent un chemin clair vers des outils fiables et réactifs. Ce n’est pas une révolution marketing : ce sont des progrès techniques précis sur la détection d’erreurs, la communication multimodale et l’action robotique.

maîtriser les hallucinations de whisper sans retoucher les poids

Whisper, le modèle audio d’OpenAI, est connu pour inventer des transcriptions sur du silence, du bruit ou de la musique. Le papier Whisper Hallucination Detection and Mitigation via Hidden Representation Steering montre qu’on peut détecter et atténuer ces hallucinations directement dans les activations internes du modèle, sans aucun fine-tuning.

En sondant les représentations de l’encodeur audio — activations brutes ou latents d’auto-encodeurs parcimonieux (Sparse AutoEncoders) —, les chercheurs isolent un signal linéairement séparable. Ce signal se concentre dans un petit sous-ensemble de features qui s’amplifie dans les couches profondes. Le steering consiste simplement à écarter les activations de ces directions lors de l’inférence.

Résultat ? Sur des échantillons non-vocal, le taux d’hallucinations chute drastiquement : de 72,63 % à 14,11 % pour Whisper small, et de 86,88 % à 27,33 % pour large-v3. Le WER sur de la parole réelle bouge à peine. Le vrai enseignement : le problème n’est pas uniquement dans le décodeur de génération, il est déjà encodé dans la représentation de l’audio non-parole.

libérer les llm en full-duplex avec un canal texte visible

Les modèles de parole actuels limitent souvent les LLM à des réponses orales, bridant leurs capacités natives comme la génération de code ou l’analyse structurée en temps réel. Le papier Liberating LLM Capabilities in Full-Duplex Speech Models propose Listen-Write-Speak (LWS), un paradigme tri-canal où le modèle écoute, écrit un texte visible en temps réel et parle en parallèle, le tout sous une attention causale partagée.

Aucune modification d’architecture : tout passe par un Token Schema et une pipeline de données synthétiques qui génère des annotations cognitives par seconde. Le résultat est une interaction full-duplex performante sur Full-Duplex-Bench, avec 4,72 sur VoiceBench AlpacaEval et 92,6 % de cohérence écriture-parole. Le texte devient un canal de sortie de premier ordre, inspectable et persistant, sans sacrifier la réactivité.

Pour l’orchestrateur d’IA que vous êtes, cela change l’expérience utilisateur : finis les monologues vocaux opaques. Vous pouvez suivre le raisonnement intermédiaire, corriger en vol et combiner parole et sortie structurée.

des world action models légers pour une robotique efficace

Les World Action Models (WAM) enrichissent l’apprentissage de politiques robotiques par la prédiction de futures vidéos, mais les versions actuelles sont souvent trop lourdes pour un déploiement en boucle fermée. Light-WAM, présenté dans Light-WAM: Efficient World Action Models with State-Fusion Action Decoding, utilise un backbone vidéo compact et une supervision dans un espace latent sous-échantillonné.

Pour la prédiction d’actions, le StateFusionActionExpert fusionne des états de plusieurs couches via pooling de requêtes apprises et prédit directement des chunks d’actions en un seul passage. Avec seulement 0,44 milliard de paramètres entraînables, le modèle atteint une latence d’inférence de 72,03 ms et 4,1 GiB de mémoire GPU maximale, tout en conservant de bonnes performances sur LIBERO et un usage multi-tâches sur RoboTwin 2.0.

Cette efficacité ouvre la porte à des politiques réactives sur du matériel accessible, sans nécessiter d’experts génératifs lourds.

quand fiabilité et temps réel font basculer les agents

Ces travaux partagent un même fil rouge : passer de prototypes impressionnants mais fragiles à des composants production-ready. Le steering interne rend Whisper plus robuste sans coût supplémentaire à l’inférence. Le full-duplex LWS libère les capacités textuelles natives des LLM dans l’interaction vocale. Light-WAM rend les modèles d’action mondiaux légers et déployables.

Pour le praticien, les implications sont immédiates : vous pouvez intégrer un Whisper plus fiable dans vos pipelines audio, concevoir des interfaces conversationnelles où le texte visible sert de tableau de bord cognitif, et déployer des politiques robotiques qui raisonnent sur le futur sans exploser vos ressources GPU.

Mais des limites persistent. Le steering de Whisper demande encore d’identifier les bonnes directions par couche. LWS repose sur une synthèse de données qui doit coller parfaitement à la timeline réelle. Light-WAM, bien que léger, reste évalué sur des benchmarks contrôlés.

Reste à voir comment ces briques s’orchestrent ensemble dans des systèmes complets. La vraie mutation n’est plus dans la taille des modèles, mais dans leur maîtrise fine et leur réactivité. Il nous appartient désormais de les assembler en agents qui tiennent la route au quotidien.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *