Sakana Fugu : l’orchestre de LLM qui vise Fable 5

Sakana Fugu : l'orchestre de LLM qui vise Fable 5

Posez-vous la question la plus simple : que se passe-t-il si, demain, l’API (l’interface de programmation) que vous utilisez pour faire tourner votre produit devient inaccessible ? Un changement de réglementation, une décision diplomatique, et l’accès s’évapore. C’est exactement le scénario que la jeune pousse tokyoïte Sakana AI met sur la table avec Fugu, son nouveau système qui ne mise pas sur un modèle plus gros, mais sur la coordination de plusieurs modèles à la volée.

L’idée mérite qu’on s’y arrête, parce qu’elle déplace la question habituelle. On ne demande plus « ce modèle bat-il les autres ? », mais « que se passe-t-il quand on les fait travailler ensemble ? ».

Un modèle qui en appelle d’autres

Première surprise : Fugu est lui-même un modèle de langage. Mais au lieu de tout traiter seul, il a été entraîné à convoquer d’autres LLM (grands modèles de langage) puisés dans un vivier d’agents, y compris des copies de lui-même.

Pensez à un chef d’atelier. Selon la commande qui arrive, soit il la traite de bout en bout, soit il assemble une équipe de spécialistes, distribue les tâches, vérifie le travail de chacun, puis recolle le tout. Sélection, délégation, contrôle, synthèse : tout cela se déroule à l’intérieur du système. Pour vous qui appelez l’API, rien de visible. Vous parlez à une seule entité, via une interface compatible avec celle d’OpenAI. La machinerie multi-modèles reste sous le capot.

Sakana n’en est pas à son coup d’essai sur ce terrain. Son agent de programmation ALE-Agent s’était classé 21e sur un millier d’experts humains lors d’une compétition de code. Chez eux, l’orchestration est une thèse technique déjà éprouvée, pas un argument de communication.

Comment Fugu choisit son équipe

Deux variantes coexistent. Le Fugu de base vise la latence faible et la régularité au quotidien : programmation, revue de code, agent conversationnel. Les équipes soumises à des contraintes de confidentialité ou de conformité peuvent d’ailleurs exclure certains agents du vivier, un détail qui en dit long sur la cible.

Fugu Ultra, lui, est taillé pour la qualité maximale sur les problèmes complexes à plusieurs étapes. Les premiers utilisateurs l’ont mis au travail sur de la recherche en IA, la reproduction d’articles scientifiques, l’analyse en cybersécurité ou la recherche de brevets. Des tâches où une seule erreur de raisonnement coûte cher, et où faire vérifier une réponse par un second modèle change tout.

À égalité avec Fable 5, sans même y avoir accès

Voici le résultat le plus parlant. Selon les chiffres publiés par Sakana AI, Fugu Ultra se hisse au niveau de Fable 5 et de Mythos Preview, les modèles de référence d’Anthropic, sur une batterie de tests en code, raisonnement, science et agents.

Quelques repères tirés de leurs mesures : sur SWE Bench Pro, un test de résolution de bugs réels, Fugu Ultra atteint 73,7 contre 69,2 pour Opus 4.8, 54,2 pour Gemini 3.1 Pro et 58,6 pour GPT 5.5. Sur GPQA-D, un examen de questions scientifiques de niveau doctorat, il monte à 95,5, devant chacun des modèles de base. L’assemblage fait mieux que chacun de ses composants pris isolément.

Le détail qui force le respect, et appelle la prudence : ni Fable 5 ni Mythos ne figurent dans le vivier d’agents de Fugu, faute d’être accessibles publiquement. Sakana reconnaît que les inclure ferait probablement grimper le score encore plus haut. Autrement dit, l’orchestrateur égale des modèles qu’il n’a même pas le droit d’utiliser. Une lecture honnête impose toutefois de rappeler que ces chiffres viennent de l’éditeur lui-même, pas d’une évaluation indépendante.

L’orchestration comme assurance anti-dépendance

C’est ici que l’argument quitte le terrain des benchmarks pour celui de la stratégie. Sakana AI présente Fugu comme un garde-fou contre la dépendance à un fournisseur unique, et l’entreprise prend un exemple très concret : les récents contrôles à l’export visant les modèles Fable et Mythos d’Anthropic.

« Pour une organisation ou une nation, s’en remettre aux API d’une seule entreprise pour des infrastructures critiques, la finance ou la gouvernance est une vulnérabilité majeure. Ce risque n’est plus une hypothèse, c’est une réalité », écrit Sakana dans son annonce. Le vivier de modèles étant entièrement interchangeable, le système peut rediriger les requêtes ailleurs si un fournisseur vient à disparaître.

Pour vous qui construisez sur ces briques, le message est direct : une couche d’abstraction au-dessus des modèles transforme un fournisseur irremplaçable en composant remplaçable. Le jour où une API tombe, vous ne réécrivez pas votre produit, vous changez une ligne dans le vivier.

Ce qu’il reste à vérifier

Tout repose sur une condition que Sakana énonce sans détour : la performance réelle dépend entièrement des modèles présents dans le vivier. Un orchestrateur brillant nourri de modèles médiocres reste médiocre. La promesse d’indépendance n’a de valeur que s’il existe, à tout moment, plusieurs modèles assez bons pour se substituer les uns aux autres.

S’y ajoutent les questions de coût et de latence : faire dialoguer plusieurs modèles, les faire se relire, c’est multiplier les appels, donc la facture et le temps de réponse. C’est sans doute pourquoi Sakana sépare un Fugu rapide d’un Fugu Ultra plus lent et plus minutieux.

Le déplacement, lui, est bien réel. Pendant que la course se joue à coups de modèles toujours plus gros, Sakana parie que la prochaine marche se franchira non pas en empilant des paramètres, mais en orchestrant intelligemment ce qui existe déjà. La vraie épreuve attend maintenant : tenir ces chiffres hors du laboratoire, sous le regard d’évaluateurs qui ne travaillent pas pour Sakana.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *