Agents IA en local : coût et souveraineté face à Codex

Agents IA en local : coût et souveraineté face à Codex

D’un côté, un abonnement mensuel et un modèle de pointe servi depuis le cloud. De l’autre, un modèle à poids ouverts qui tourne sur votre propre machine, gratuit une fois le matériel payé. Longtemps, le second camp est passé pour un terrain de bricoleurs. Ce n’est plus le cas.

Faire tourner un agent de code ou un agent de recherche en local, sans Claude Code ni Codex, devient une vraie option de production. Et le débat ne se joue plus sur la prouesse technique, mais sur le contrôle et le coût.

Deux philosophies, pas deux gammes de prix

Opposer les services propriétaires à une pile locale, ce n’est pas comparer un outil cher à un outil bon marché. C’est confronter deux manières de faire travailler une IA. L’abonnement vous loue une intelligence distante, opaque, mise à jour sans vous prévenir. Le local vous confie un moteur que vous hébergez, inspectez et modifiez à votre guise.

L’ingénieur et auteur Sebastian Raschka, qui documente sa propre pile locale, pose la distinction sans détour : le moteur, c’est le LLM (grand modèle de langage), qui fournit le raisonnement et la génération de code ; autour, le harness fournit l’environnement d’exécution qui lui permet de lire des fichiers, de les éditer, de lancer des commandes et de vérifier ses changements. Deux briques séparables. Et c’est précisément cette séparation qui rebat les cartes.

Ce que l’abonnement achète vraiment

Le service propriétaire vend de la tranquillité. Vous payez, le meilleur modèle disponible répond, et vous n’avez ni GPU (processeur graphique) à acheter ni serveur d’inférence à régler. Raschka le reconnaît volontiers : il alterne encore Codex et Claude Code au quotidien, et les limites des forfaits restent assez généreuses pour qu’il n’ait jamais eu à se soucier des coûts.

Mais cette tranquillité a un revers. Vous ne maîtrisez ni le prix, ni la disponibilité, ni le comportement exact du modèle dans le temps. Une montée de version qui fiabilise vos requêtes peut tout aussi bien casser un workflow rodé. Et Raschka rappelle un épisode parlant : Anthropic a récemment bridé les performances de son modèle phare pour réserver de la capacité à ses propres travaux de recherche. Autrement dit, un service propriétaire peut devenir plus restrictif sans que vous ayez votre mot à dire.

Ce que le local met sous votre contrôle

La pile locale renverse l’équation. Le matériel et l’électricité une fois assumés, faire tourner le modèle ne coûte plus rien. Le coût devient prévisible et fixe, immunisé contre les hausses de tarifs d’API (interface de programmation) et les changements de forfait. Vous gardez le même environnement de travail aussi longtemps que vous le souhaitez, sans subir de mise à jour imposée.

Vient ensuite la confidentialité, qui n’est pas un détail. Raschka prend un exemple trivial mais éclairant : pour organiser et traiter ses factures, il préfère un modèle local qui les ingère sur sa machine plutôt que d’expédier ces données chez OpenAI ou Anthropic. Le raisonnement vaut pour tout code propriétaire, tout document sensible, toute base que vous ne voulez pas voir transiter par un tiers.

Reste un troisième atout, plus discret : l’autonomie. Un agent local fonctionne dans l’avion, dans la cabane au fond des bois, partout où le réseau manque. Le cloud, lui, s’arrête net dès que la connexion tombe.

Monter sa pile : moins sorcier qu’on ne croit

La vraie nouvelle, c’est que l’assemblage s’est banalisé. Pour servir un modèle en local, Ollama suffit : une installation, une commande, et le modèle écoute sur un endpoint compatible avec l’API d’OpenAI. On peut ainsi récupérer Gemma 3n, le modèle ouvert de Google, dans ses variantes taillées pour la machine : la E4B convient aux workflows d’agents locaux, la E2B plus légère dépanne les configurations modestes. Gemma n’est d’ailleurs pas la seule porte d’entrée : OpenAI a elle-même ouvert les poids de ses modèles gpt-oss, qui s’installent par la même commande Ollama. Signe que le camp propriétaire alimente lui aussi la bascule vers le local.

Le harness se branche par-dessus. Un agent de recherche se compose en quelques lignes avec l’OpenAI Agents SDK, en pointant le client vers Ollama plutôt que vers les serveurs d’OpenAI, et en lui greffant un outil de recherche web via le protocole MCP (Model Context Protocol). Le résultat tient en un objet : un modèle local capable d’interroger le web, de rassembler des preuves et de synthétiser une réponse sourcée.

Côté code, la même logique opère. Les harness populaires comme Codex et Claude Code peuvent piloter des modèles à poids ouverts, et certains modèles arrivent même avec leur harness dédié, à l’image de Qwen-Code pour Qwen3-Coder. Vous gardez l’outillage que vous connaissez, vous remplacez seulement le moteur sous le capot.

Alors, faut-il débrancher Codex ?

Pas si vite. La pile locale exige du matériel correct, accepte des modèles ouverts encore en retrait des meilleurs modèles fermés sur les tâches les plus ardues, et demande qu’on mette les mains dans le moteur. Pour qui veut juste que ça marche, l’abonnement reste le chemin le plus court.

Mais le rapport de forces a changé. Le local n’est plus l’exception du passionné : c’est un filet de sécurité raisonné contre la dépendance, une réponse aux coûts qui dérivent et aux données qu’on ne veut pas confier. Le choix ne se résume plus à « gratuit contre payant ». Il se pose désormais en termes de souveraineté : à qui voulez-vous confier le moteur qui lit votre code ?

Sources

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *