Kimi K2.7 tient en 325 Go : l’IA qui code change de camp

Kimi K2.7 tient en 325 Go : l'IA qui code change de camp

Huit, vingt, cent, parfois deux cents dollars par mois : le prix des agents de code dopés à l’IA s’envole. Certaines équipes plafonnent désormais les dépenses de leurs développeurs autour de 1 500 dollars mensuels par tête. On lit partout que la facture est le prix à payer pour rester à la frontière. C’est précisément ce récit qu’il faut renverser.

Ce que la couverture retient, et ce qu’elle manque

Le discours dominant tient en une phrase : les modèles locaux restent en retard, et programmer sérieusement avec l’IA suppose un abonnement à un service propriétaire. La nuance qu’on oublie de poser est ailleurs.

Un agent de code, qu’il s’appelle Claude Code, Gemini CLI ou Codex, se résume à deux briques : un harness (l’enveloppe logicielle qui orchestre les outils) et un modèle. Or la totalité du coût d’un abonnement provient du modèle. Le harness, lui, ne coûte rien à produire. Toute la dépendance financière tient donc à un seul maillon : l’accès facturé au modèle.

Le vrai enjeu n’est pas la performance brute. C’est l’économie de cette dépendance.

Quand le modèle de pointe tient sur un disque dur

C’est là qu’arrive la bascule. L’équipe Unsloth annonce avoir comprimé Kimi K2.7 Code de 605 à 325 Go, soit près de moitié moins, grâce à une quantification dynamique en 2 bits (une compression des poids du modèle) qui préserve en pleine précision les couches jugées critiques. À la clé, plus de 40 tokens par seconde (un token étant une unité de texte produite par le modèle) sur une configuration disposant de 330 Go de mémoire cumulée (RAM système et VRAM de la carte graphique).

325 Go, ce n’est pas un téléphone. Mais ce n’est plus un centre de données : c’est l’ordre de grandeur d’une station de travail haut de gamme, achetée une fois et amortie. Le modèle ne vit plus dans le cloud d’un éditeur qui facture chaque appel. Il vit chez vous.

Le glissement est limpide : on ne loue plus l’intelligence à la requête, on la possède.

Le local n’est plus une consolation

Reste l’objection classique : un modèle local serait un pis-aller, lent et approximatif. L’ingénieure Vicki Boykis, qui documente cet usage depuis ses débuts, raconte l’inverse sur un Mac M2 de 2022 doté de 64 Go de RAM. Pendant longtemps, son verdict était simple : un bon modèle est celui qu’elle n’a pas besoin de revérifier face à une API (interface de programmation). Ce seuil, dit-elle, a été franchi.

Avec la famille Gemma 4 de Google, elle dit obtenir des boucles agentiques (des cycles où l’IA enchaîne seule les actions) tournant à environ 75 % de la précision et de la vitesse des modèles de pointe. Pas un gadget : refactorisation d’un script Python en plusieurs modules, écriture de tests unitaires, relecture, amorçage d’un dépôt à partir d’une page blanche. Des tâches qui, six mois plus tôt, étaient hors de portée d’une machine personnelle.

75 %, ce n’est pas 100 %. Mais à coût nul, et sur du code qui ne sort jamais de votre machine, l’arbitrage change de nature.

La gratuité n’est jamais tout à fait gratuite

Pour autant, gardons la tête froide. Une autre voie, distincte du tout-local, consiste à brancher un harness open source comme OpenCode sur des modèles gratuits exposés via un agrégateur de fournisseurs. Séduisant sur le papier, mais avec deux pièges documentés par plusieurs retours de terrain.

  • La donnée comme monnaie : la plupart des éditeurs de modèles gratuits récupèrent vos entrées et sorties pour entraîner la génération suivante. Pour du code propriétaire, le risque est direct.
  • La latence comme péage : aux heures de pointe, ces accès gratuits passent en priorité basse. On tombe parfois sous 20 tokens par seconde, avec son lot d’erreurs d’appels.

Autrement dit, le gratuit hébergé reste un échange : vous ne payez pas en dollars, vous payez en confidentialité et en confort. Le modèle local, exécuté sur votre matériel, ferme cette porte : rien ne part, rien ne ralentit selon l’affluence.

Qui captera la valeur, désormais ?

Le mouvement de fond se dessine. Tant que le modèle vivait exclusivement derrière une API facturée, l’éditeur tenait le robinet et fixait le prix. Quand le même niveau de capacité tient sur un disque, le rapport de force se déplace vers celui qui possède la machine.

Cela ne signe pas la fin des abonnements : les modèles les plus avancés, les très gros contextes et la commodité du clé-en-main garderont leur public. Mais le plancher se déplace. Pour une part croissante du travail quotidien d’un développeur, payer chaque mois devient un choix, et non plus une fatalité.

La question n’est donc pas de savoir si les modèles locaux rattraperont un jour les meilleurs services, mais qui captera la valeur quand programmer avec l’IA ne coûtera plus rien à l’usage. L’éditeur qui loue l’intelligence, ou l’orchestrateur qui l’héberge ?

Sources :

  • Unsloth, annonce de la compression de Kimi K2.7 Code (compte officiel sur X)
  • Vicki Boykis, « Running local models is good now » (vickiboykis.com)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *