
Demandez à un grand modèle de langage (LLM, ces systèmes entraînés sur d’immenses corpus de texte pour prédire le mot suivant) un nombre au hasard entre 1 et 10. Puis recommencez, changez d’assistant, insistez. Neuf fois sur dix, la machine répond 7. Toujours 7.
Le réflexe amuse d’abord, puis il intrigue. Car ce 7 obstiné est le prix d’une course que le secteur mène tambour battant : rendre l’IA plus fiable, moins sujette aux hallucinations, plus prévisible dans ses réponses. À force de viser la justesse, on a fabriqué des modèles qui, sur les questions ouvertes, répondent tous à peu près la même chose. Une enquête publiée le 1er juillet 2026 par la MIT Technology Review en fait le point de départ d’une histoire moins anecdotique qu’il n’y paraît.
Toujours le même chiffre
Un cofondateur de la startup Springboards a transformé ce travers en démonstration commerciale. Il pose la question du nombre au hasard devant ses prospects, le 7 tombe, immanquablement, et il commente : « C’est notre argument de vente, et il fonctionne à tous les coups. » Quand on lui oppose que 7 reste, après tout, une réponse acceptable, il acquiesce : « 7 est une réponse tout à fait valable. » Valable, oui. Mais toujours identique.
On se figure ces modèles comme des puits d’imagination, capables d’inventer des récits à l’infini. L’intuition est flatteuse ; elle résiste mal à l’épreuve du hasard demandé. Ce qui devrait être imprévisible ne l’est pas, et le même chiffre revient d’un assistant à l’autre comme un tic partagé.
Chercher la justesse, récolter la moyenne
Le mécanisme n’a rien de mystérieux. La course actuelle vise un horizon unique : moins d’erreurs, moins d’hallucinations, plus de constance. Objectif salutaire pour un correcteur juridique ou un assistant médical. Mais un modèle entraîné à ne jamais se tromper apprend, par construction, à jouer la réponse la plus probable.
Or la réponse la plus probable est la réponse moyenne. Sur des milliards de paramètres nourris d’une part vertigineuse du savoir écrit, ce qui remonte n’est pas la créativité : c’est le centre de gravité statistique de tout ce qui a été publié. Le 7 n’est pas un bug logé dans le code ; c’est le reflet d’un consensus, la trace d’une pensée de groupe encodée dans les poids du modèle. Plus on rend une IA « fiable » au sens où le marché l’entend, plus on la pousse vers la platitude dès que la question n’admet pas de solution unique. Fiabilité et diversité tirent en sens contraire, et l’industrie n’a musclé qu’un seul des deux plateaux.
Flint mise sur la divergence
Springboards prend ce constat au sérieux. L’entreprise a entraîné un modèle baptisé Flint dont l’objet déclaré n’est pas de mieux prédire, mais de diverger : élargir l’éventail des réponses là où la question admet plusieurs sorties défendables. Sur NoveltyBench, un test indépendant qui mesure la diversité des réponses, Springboards revendique pour Flint plus du double du score moyen des grands assistants comme Claude, ChatGPT ou Gemini.
L’exemple avancé par ses fondateurs est éclairant. Réclamez une voiture à un assistant dominant, il vous suggérera une Toyota ou une Honda, valeurs sûres, choix médians. Flint, lui, ose une Ford F-150. L’écart n’est pas cosmétique : il change la nature de ce qu’on attend d’un modèle. Là où les autres traitent l’inattendu comme un défaut à corriger, Springboards en fait sa matière première. L’idée sous-jacente : l’écart sert de moteur d’exploration, une réponse improbable ouvrant une piste qu’aucune moyenne n’aurait soufflée. Pour du brainstorming ou de l’écriture, la logique tient : on ne demande pas au modèle d’avoir raison, mais de nous sortir de l’ornière.
Quand l’écart devient un défaut
Il faut pourtant résister à l’enthousiasme. Un modèle qui diverge par principe a un coût. La plupart des usages professionnels réclament l’inverse : reproductibilité, réponses stables, comportement auditable. Un assistant comptable qui répondrait tantôt 7, tantôt une Ford F-150, serait inutilisable.
La divergence n’est donc pas une qualité en soi, mais un réglage. Pour un développeur qui construit une application par-dessus ces modèles, tout se joue sur un arbitrage : à quel moment veut-on de l’écart, à quel moment de la constance, et quel outil choisir en conséquence. Springboards ne périme pas ses concurrents ; elle rend visible un curseur que le marché avait figé sur une seule position. On peut d’ailleurs douter qu’un modèle plus petit, taillé pour la diversité, rivalise avec les mastodontes sur la qualité brute. Diverger sans sombrer dans l’absurde est un équilibre délicat, et rien dans les éléments publics ne démontre encore que Flint le tienne à grande échelle.
Des machines qui nous renvoient à la moyenne
L’affaire dépasse la prouesse technique. Si nos outils nous répondent tous en chœur, ils finiront par aplatir la manière dont nous formulons nos idées, explorons des options, tranchons des décisions. Une IA qui converge vers la moyenne renvoie à ses utilisateurs une image lissée du possible. Le mérite de Springboards n’est sans doute pas d’avoir la bonne réponse, mais d’avoir posé une question que le secteur, trop occupé à corriger ses copies, avait laissée de côté : jusqu’où discipline-t-on une machine avant de la rendre prévisible au point d’en devenir inutile ? Ceux qui ont passé des années à dresser leurs modèles à ne jamais surprendre seront les derniers à leur rendre ce droit.
Source : Springboards (Flint)
