Base44 mise sur ses données, pas sur la course aux modèles

Il y a un an, Wix déboursait 80 millions de dollars pour une plateforme de vibe coding (créer des applications en langage naturel) qui n’avait alors que six mois et huit salariés. Aujourd’hui, cette même équipe déploie son propre modèle d’intelligence artificielle. Le geste paraît anecdotique dans le flot des annonces ; il dessine en réalité la ligne qui va départager les startups d’IA dans les mois qui viennent.

Base44, installée à Tel-Aviv, louait jusqu’ici l’intelligence d’autrui. Elle fabrique désormais la sienne.

De la location de modèle à l’atelier maison

Jusqu’ici, Base44 branchait ses utilisateurs sur des grands modèles de langage (LLM) externes, comme la plupart de ses rivales. Elle vient de lancer Base1, sa première itération maison, entraînée selon l’entreprise sur un jeu de données issu de « dizaines de millions d’interactions réelles » sur la plateforme.

Son fondateur, Maor Shlomo, avance un argument d’ingénieur, pas de marketeur : posséder le modèle à l’intérieur de sa propre pile technique ouvre « beaucoup plus d’optimisations sur la latence, le coût et l’efficacité ». L’ambition est assumée, mais différée : à terme, Base1 devrait dépasser les modèles de pointe sur son terrain étroit, la génération d’applications. Le modèle n’y est pas encore. Mais la direction est prise, et elle est irréversible pour qui a commencé à collecter la donnée.

La défensibilité se joue sur les données, non sur la taille du modèle

Pourquoi entraîner un modèle quand on peut appeler celui d’un autre en trois lignes de code ? Parce que la valeur d’une startup d’IA a changé de nature. Jonathan Userovici, associé chez le fonds Headline, résume la défensibilité d’une jeune pousse d’IA à trois piliers : les données, la distribution et la pile technique. La performance brute d’un modèle, elle, se banalise à mesure que les grands laboratoires se rattrapent mutuellement.

Le raisonnement de Shlomo suit cette logique. Les modèles généralistes progressent, mais resteront généralistes : ils optimisent une moyenne d’usages, pas un usage précis. Un corpus de plusieurs dizaines de millions de sessions de développement, lui, encode quelque chose qu’aucun modèle de pointe ne voit : la manière dont de vrais utilisateurs formulent, corrigent et itèrent leurs applications. C’est ce journal d’usage, et non un décompte de paramètres, que Base44 cherche à transformer en avantage durable.

La différence est stratégique pour qui bâtit sur ces plateformes : le jour où votre fournisseur possède son propre modèle, il ne dépend plus des hausses de tarif ni des changements de politique d’un tiers. Il maîtrise sa marge et sa feuille de route.

@tomeromrix sur X

Les mêmes données intéressent déjà Anthropic et Cursor

Le pari a un angle mort, et il est de taille. Base44 ne redoute pas vraiment ses concurrentes directes : Lovable, la suédoise devenue licorne l’été dernier, s’appuie encore sur des LLM externes. Le danger est ailleurs, dans les grands laboratoires qui se rapprochent de son pré carré.

Cursor, xAI avec son modèle Grok, ou encore Claude Code d’Anthropic se sont imposés comme des acteurs du vibe coding à part entière. Or ces outils captent eux aussi des données de programmation et des boucles de retour utilisateur : précisément la matière première dont Base44 fait sa forteresse. Anthropic et les autres grands fournisseurs de modèles disposent ainsi des mêmes signaux pour améliorer leurs modèles sur la création d’applications. Le corpus de Base44 grossira ; celui de ses rivaux aussi, et souvent plus vite.

Le coût d’inférence, juge de paix du pari

Shlomo lui-même pose la limite : d’autres entraîneront leurs propres modèles, mais seulement « les acteurs qui ont atteint assez d’échelle et de vélocité pour avoir assez de données ». Traduction : ce chemin n’est pas ouvert à tout le monde, et il se referme pour les petits.

Userovici, de son côté, met en garde contre la tentation de sous-estimer les modèles de pointe. Il cite le cas de Harvey, la startup de legal tech qui avait envisagé d’entraîner son propre modèle avant d’y renoncer. Bâtir un modèle coûte cher, mobilise des talents rares et détourne des ressources du produit. Se tromper de calcul peut saigner une entreprise à blanc.

Reste alors ce qui fait basculer l’équation dans le bon sens : le coût d’inférence. Les clients entreprise ne voient plus de retour sur investissement à faire tourner le dernier modèle géant pour chaque tâche banale. Toute une infrastructure d’orchestration se met en place pour aiguiller chaque requête vers le modèle le moins cher capable de la traiter. Dans ce monde-là, un modèle spécialisé, léger et maîtrisé de bout en bout devient un argument comptable autant que technique.

Voilà le calcul de Base44 : miser que la spécialisation battra la puissance brute là où le volume d’appels explose. Le verdict se lira sur deux indicateurs concrets dès la fin 2026 : la marge que Base1 dégage réellement face au coût d’un LLM loué, et la fidélité des clients entreprise, encore minoritaires mais désormais moteurs du chiffre d’affaires. Si ces deux courbes montent ensemble, la donnée d’usage aura tranché le débat. Sinon, Base44 aura appris, à ses frais, pourquoi Harvey a préféré rester locataire.

Sources

Claude Code

Base44 mise sur ses données, pas sur la course aux modèles

De la location de modèle à l’atelier maison

La défensibilité se joue sur les données, non sur la taille du modèle

Les mêmes données intéressent déjà Anthropic et Cursor

Le coût d’inférence, juge de paix du pari

Sources

Un autre article ?

ChatGPT sous 50 % : la fin du réflexe « IA = ChatGPT »

DeepSeek gagne 85 % de vitesse sans une puce de plus

Anthropic en Europe : le pari perdu d’avance de l’UE

Laisser un commentaire Annuler la réponse