Distillation

La distillation consiste à entraîner un petit modèle à imiter un grand. Le « professeur », massif et coûteux, transmet son comportement à un « élève » bien plus léger, qui retient l’essentiel des réponses sans porter tout le poids du calcul. C’est ainsi qu’un savoir né dans un datacenter finit par tenir sur un téléphone, à une fraction du prix.

Mais l’élève n’apprend pas du monde, il apprend d’un maître. Il hérite donc de sa façon de voir, de ses raccourcis et de ses angles morts, sans jamais accéder à ce que le professeur ignorait lui-même. Une lignée de modèles de langage distillés les uns des autres peut ainsi propager une erreur commune que personne ne remonte à la source. Que transmet-on vraiment quand on apprend à une machine à en copier une autre ?