
NVIDIA a longtemps vendu par lots. Une commande de GPU, ces puces graphiques devenues le carburant de l’IA, une facture, un client qui repart avec ses machines. Le modèle dévoilé le 2 juillet change de terrain : le concepteur de puces veut désormais encaisser une part des revenus que ses clients tirent de la capacité qu’il leur fournit.
L’annonce parle de « nouveau modèle économique » ouvrant l’accès au calcul. Derrière la formule, un déplacement du rapport de force : NVIDIA cesse d’être un fournisseur en bout de chaîne pour s’installer en amont de l’économie de l’inférence (la phase où un modèle déjà entraîné produit ses réponses), là où se génèrent les tokens, ces fragments de texte que les modèles fabriquent un à un, requête après requête.
Un péage posé sur la production de tokens
Le mécanisme tient en deux briques. NVIDIA propose aux clouds spécialisés un partage de revenus et un soutien financier pour acquérir son infrastructure. En échange, il touche deux fois : la vente de matériel, comme avant, plus une part du chiffre d’affaires que le cloud réalise sur la capacité concernée.
Le glissement est net. Jusqu’ici, la marge de NVIDIA se jouait à la commande, en une fois. Elle devient récurrente, indexée sur l’usage. Chaque requête d’inférence servie sur ces machines alimente un flux qui remonte vers Santa Clara. Le fabricant de pelles se met à toucher un pourcentage sur l’or extrait.
Pourquoi financer ses propres clients
Le volet crédit est le plus révélateur. NVIDIA relève que les jeunes entreprises d’IA peinent à financer une infrastructure aussi capitalistique, leurs engagements de long terme ne suffisant pas à débloquer les prêts. En apportant lui-même le soutien financier, le groupe lève ce verrou… et s’y substitue.
Autrement dit, il vend le calcul et en finance l’achat. Le client dépend alors de NVIDIA pour le matériel, pour la pile logicielle, et maintenant pour le capital qui rend l’opération possible. Trois dépendances au lieu d’une, nouées avant même que la première puce ne chauffe.
La marge de manœuvre qui se referme
Pour un cloud qui héberge des modèles, la conséquence est directe. Accepter ces conditions, c’est reverser une fraction de ses revenus au fournisseur de ses propres GPU, sur la durée. Les refuser, c’est renoncer au financement et à l’accès rapide à la capacité, dans un marché où arriver après les autres coûte cher.
L’effet dépasse les seuls partenaires. En verrouillant l’économie en amont, NVIDIA rend plus difficile l’émergence d’une offre d’inférence bâtie sur des alternatives, puces concurrentes ou architectures maison : le terrain commercial se referme avant que ces options aient eu le temps de peser. Le coup ne vise pas un rival précis, il rétrécit le champ pour tous ceux qui voudraient héberger des modèles sans passer par lui.
Des usines à IA plus proches de la centrale que du data center
Les premiers signataires disent où va la demande. Sharon AI déploie jusqu’à 40 000 GPU Grace Blackwell GB300 ; son cofondateur James Manning y voit une étape décisive pour l’accès, à grande échelle, à une puissance de calcul souveraine. Firmus, de son côté, bâtit un campus à Batam, en Indonésie, dimensionné pour monter à 360 mégawatts et jusqu’à 170 000 GPU. Des chiffres d’usine lourde, plus de centrale électrique que de salle de serveurs.
Le vocabulaire de NVIDIA ne s’en cache pas : il parle d’« AI factories », des usines à IA tournant en continu pour produire des tokens à la chaîne. Des acteurs comme Baseten, Fireworks AI ou Together AI illustrent la cible : l’entraînement, le fine-tuning (l’ajustement d’un modèle déjà entraîné sur des données ciblées) et l’inférence à fort volume, pilotée par des agents, réclament un accès immédiat à cette capacité, avec la souplesse commerciale d’un produit qui passe du pilote à la production.
Le raisonnement de NVIDIA se résume à une bascule : convertir une activité cyclique de vente de matériel en rente adossée à l’usage de l’IA. Tant que les modèles produisent des tokens, le compteur tourne. Pour ceux qui font tourner ces modèles, l’enjeu se déplace en amont de leur propre infrastructure : mesurer ce que coûte, sur la durée, une capacité dont le fournisseur touche désormais un pourcentage à chaque requête.
