Amazon distille Claude pour fuir la facture au token

Le premier investisseur d’Anthropic fabrique déjà, en interne, des copies allégées de ses modèles. Ce n’est pas un détail d’ingénierie. C’est un calcul de sortie, et il a une échéance : l’an prochain.

Selon des informations de presse, des ingénieurs d’Amazon distillent les modèles Claude d’Anthropic pour s’en construire des versions plus petites et moins chères, réservées à un usage interne. Derrière la manœuvre technique se cache un pari sur les douze prochains mois.

Amazon ne se contente plus de consommer Claude, il le recopie

La distillation consiste à entraîner un petit modèle à partir des sorties d’un grand : l’élève imite le maître, pour une fraction du coût d’exécution. Amazon disposerait de droits spécifiques pour le faire sur les modèles d’Anthropic, dans un arrangement comparable à celui qui lie Apple à Google autour de Gemini.

Le détail qui en dit long : Amazon propose déjà un service de distillation sur sa plateforme Bedrock, mais Claude n’y figure pas. Seuls les modèles maison Nova et les Llama de Meta y sont distillables. Autrement dit, ce travail sur Claude se fait en marge de l’offre commerciale, en coulisses. Quand on bâtit une copie d’un produit qu’on revend par ailleurs, on ne le fait pas par curiosité.

La bascule au token, déclencheur du mouvement

Tout se joue dans la renégociation du partenariat. À partir de l’an prochain, Amazon ne paiera plus l’accès aux modèles d’Anthropic à l’heure de calcul, mais au token traité, c’est-à-dire à l’unité de texte consommée en entrée et en sortie. Pour un acteur qui fait tourner ces modèles à très grande échelle, le changement de base de facturation peut faire grimper la note d’un coup.

Un porte-parole d’Amazon dément que l’élargissement du partenariat alourdisse les coûts. Anthropic, de son côté, met en avant des tarifs bas au regard des performances livrées. Les deux versions officielles cohabitent. Mais les actes parlent plus fort : on ne mobilise pas des équipes pour cloner un fournisseur dont on juge le prix soutenable.

Le passage au token n’est pas un caprice comptable. C’est le modèle économique vers lequel converge toute l’industrie de l’IA générative, parce qu’il colle au coût réel d’inférence. Le problème, c’est qu’il transforme chaque appel en ligne de dépense variable. À l’échelle d’un hyperscaler (un géant du cloud), la variable devient une falaise.

@MTSlive sur X

Le pari d’Amazon : garder toutes les portes ouvertes

Replacez la distillation dans le paysage des investissements d’Amazon cette année : jusqu’à 25 milliards de dollars supplémentaires dans Anthropic, et jusqu’à 50 milliards dans OpenAI. Le groupe explorerait aussi bien les modèles d’OpenAI que ses propres Nova comme solutions de repli.

Le scénario se lit alors clairement. Amazon ne quitte pas Anthropic : il s’assure de pouvoir le faire. Distiller Claude, c’est se constituer une réserve interne de capacités proches, immunisée contre la facturation au token. C’est une police d’assurance contre son propre fournisseur, prise au moment précis où la facture s’apprête à changer de nature.

Et la logique vaut au-delà d’Amazon. Microsoft a déjà tranché à sa façon : le groupe a lancé en juin sa propre famille de modèles MAI, présentée comme un moyen de faire d’OpenAI une option parmi d’autres plutôt qu’un passage obligé. Tout acteur qui industrialise l’usage d’un grand modèle se posera la même question l’an prochain : faut-il continuer à payer chaque token à plein tarif, ou distiller une version captive pour les tâches répétitives à fort volume ? Les modèles de fond restent imbattables sur le raisonnement complexe ; mais une part croissante des usages réels relève de tâches simples et massives, exactement le terrain où un modèle distillé devient rentable.

Le point de bascule à surveiller

Voici le signal à guetter dans les prochains mois. Si même le plus gros client et investisseur d’un laboratoire d’IA juge l’usage direct de ses modèles trop coûteux pour le tenir à l’échelle, c’est toute l’économie du « tout passe par l’API du fournisseur » qui se fissure. Le token ne devient pas seulement une unité de prix : il devient un seuil de décision entre louer l’intelligence et la dupliquer.

Pour quiconque construit aujourd’hui sur une API de modèle propriétaire, le calendrier compte. La bascule de facturation arrive l’an prochain. D’ici là, l’enjeu opérationnel tient moins au choix du modèle qu’à la cartographie de vos usages : quelle part de vos appels relève du raisonnement de pointe, qui justifie de payer le prix fort, et quelle part pourrait être absorbée par un modèle plus léger, distillé ou ouvert ?

Amazon vient de répondre à cette question pour son propre compte, avant l’échéance. Le mouvement trace la trajectoire : à mesure que la facturation au token se généralise, la distillation cesse d’être une optimisation marginale pour devenir un réflexe de gestion. Reste un test grandeur nature à observer dès l’an prochain : le jour où Amazon arbitrera, en production, entre Claude et sa copie maison, on saura ce que le marché est prêt à payer pour la version originale.

Amazon distille Claude pour fuir la facture au token

Amazon ne se contente plus de consommer Claude, il le recopie

La bascule au token, déclencheur du mouvement

Le pari d’Amazon : garder toutes les portes ouvertes

Le point de bascule à surveiller

Sources

Un autre article ?

Facture IA divisée par deux : le calcul de Coinbase

Quand l’IA coûte plus que les salaires : Lindy lâche Claude

GLM-5.2 : un cinquième du prix, le double de tokens

Laisser un commentaire Annuler la réponse