DeepSeek gagne 85 % de vitesse sans une puce de plus

Face au durcissement des restrictions américaines sur l’exportation de puces, la riposte chinoise ne prend pas la forme d’un nouveau silicium, mais d’une ligne de code. DeepSeek annonce un gain de vitesse de 60 à 85 % sur ses grands modèles de langage (LLM), obtenu sans ajouter la moindre carte graphique. Un chiffre spectaculaire, à condition de regarder ce qu’il mesure exactement, et à quel prix.

DSpark : deviner d’abord, vérifier ensuite

Le gain repose sur une méthode baptisée DSpark, publiée par DeepSeek en collaboration avec l’université de Pékin. Son principe : le décodage spéculatif (speculative decoding). Un LLM classique génère son texte token par token (un token = un fragment de mot), ce qui laisse le processeur graphique (GPU) largement sous-employé pendant les longues réponses, avec de longs temps d’attente à la clé.

DSpark casse ce goulot. Un petit modèle léger propose des suites de mots candidates ; le gros modèle se contente de les vérifier par lots, au lieu de tout produire lui-même. Le système produit de petits groupes de mots plutôt qu’un token isolé, et un mécanisme fondé sur la confiance ajuste à la volée la profondeur de vérification selon la charge de calcul du moment. Résultat : moins de calcul gaspillé sur les propositions rejetées, plus de tokens produits par seconde.

Sur le papier, DeepSeek affirme que son composant « drafter » dépasse les méthodes concurrentes comme Eagle3 et DFlash sur l’ensemble de ses catégories de test. Le framework et le modèle DeepSeek-V4-Pro sont disponibles sur Hugging Face et GitHub sous licence MIT, avec un article technique à l’appui.

Servir vite et servir beaucoup, en même temps

Ce +85 % porte sur une grandeur précise : la vitesse de génération perçue par l’utilisateur (le nombre de tokens qui s’affichent chaque seconde à l’écran), pas le débit total du serveur. Les deux tirent d’ordinaire dans des sens opposés : plus on empile de requêtes en parallèle pour saturer le GPU, plus chaque réponse individuelle ralentit.

L’intérêt de DSpark est précisément là. Selon les mesures de DeepSeek sur trafic réel, la méthode repousse simultanément le débit et l’interactivité au-delà de la ligne de base habituelle. Elle desserre donc l’arbitrage classique entre servir beaucoup de monde et servir vite. Pour un service qui facture à l’usage et se bat sur la latence, c’est exactement la variable qui compte.

@Techstrongai sur X

Le paradoxe de Jevons rattrape DeepSeek

L’efficacité a pourtant un revers moins intuitif. Une inférence plus efficace réduit mécaniquement le besoin en puces… par requête. À l’échelle d’un fournisseur, l’effet net est loin d’être acquis. C’est le paradoxe de Jevons : quand une ressource devient moins chère à l’usage, on finit par en consommer davantage.

DeepSeek ne s’en cache pas. Le gain, écrit l’entreprise, « ouvre des paliers de performance jusqu’ici inatteignables et déplace la frontière de Pareto de notre système de production ». En clair : la capacité libérée sera réabsorbée aussitôt par plus de requêtes, des contextes plus longs, de nouveaux usages. La demande totale de puces pourrait rester stable, voire grimper. L’efficacité ne fait pas disparaître le besoin de calcul ; elle en repousse le plafond.

Le logiciel contre l’embargo

C’est à l’échelle géopolitique que le chiffre prend tout son poids. Privée d’accès aux puces haut de gamme les plus récentes, la Chine ne peut pas rivaliser sur la quantité de silicium. Elle joue donc la performance par puce. Tirer 85 % de vitesse supplémentaire d’un parc matériel contraint, c’est réduire d’autant l’effet de levier que les États-Unis espèrent obtenir de leurs restrictions à l’export.

Le bénéfice déborde d’ailleurs les frontières chinoises. L’Union européenne, elle aussi en retard sur la construction de centres de données et l’accès aux puces de pointe, a tout intérêt à ces méthodes qui tirent davantage d’un matériel rare. À court terme, ce sont les acteurs à court de puces qui gagnent le plus à optimiser chaque cycle de calcul.

Un détail confirme la portée du procédé : DSpark fonctionne aussi sur des modèles ouverts tiers, Gemma de Google DeepMind et Qwen d’Alibaba. Ce n’est donc pas un tour propre à l’architecture de DeepSeek, mais une brique réutilisable, publiée en open source, que n’importe quel laboratoire peut greffer sur ses propres modèles.

La bataille des puces se jouait jusqu’ici en nombre de cartes et en nanomètres. DSpark déplace une partie du terrain vers le logiciel, là où un contrôle à l’export n’a aucune prise. Tant que l’efficacité algorithmique progressera plus vite que le durcissement des sanctions, le silicium restera un levier de moins en moins tranchant.

DeepSeek gagne 85 % de vitesse sans une puce de plus

DSpark : deviner d’abord, vérifier ensuite

Servir vite et servir beaucoup, en même temps

Le paradoxe de Jevons rattrape DeepSeek

Le logiciel contre l’embargo

Sources

Un autre article ?

Anthropic en Europe : le pari perdu d’avance de l’UE

OpenAI, Google, Anthropic : la vitesse avant le QI

Meta bloque Claude Code : protéger l’IA, pas les secrets

Laisser un commentaire Annuler la réponse