Distillation : La revanche des modèles poids plume !

« La taille, ça compte… mais parfois, ce sont les petits modèles qui vous couvrent de gloire ! » Si cette citation n’existe pas, elle aurait dû : l’actualité tech nous réserve encore de belles surprises où David ne se laisse pas impressionner par Goliath. Aujourd’hui, c’est DeepSeek qui chamboule le jeu avec un modèle IA de poche… qui ne manque pourtant pas d’arithmétique !

En plein tumulte autour de leur modèle R1 dernier cri, le laboratoire chinois DeepSeek a discrètement glissé dans nos flux RSS un petit frère, le DeepSeek-R1-0528-Qwen3-8B. Son nom ressemble à un mot de passe oublié, mais son efficacité, elle, s’affiche sans hésiter : la prouesse de ce “mini” modèle (distillé, pour les puristes) n’a rien à envier aux mastodontes de la discipline.

Imaginez : basé sur le Qwen3-8B d’Alibaba, notre héros du jour tacle ni plus ni moins que le Gemini 2.5 Flash de Google sur le terrain (glissant) de l’AIME 2025, la Rolls Royce des épreuves mathématiques pour IA. Mieux, il talonne presque Microsoft et son fameux Phi 4 reasoning plus lors du test, très respecté lui aussi, du HMMT. Autrement dit, dans la cour des géants, un “bébé” modèle peut faire des claquettes algébriques sans rougir…

Quand la puissance n’est plus une question de taille mais d’intelligence, tout le monde peut viser les étoiles… même un modèle distillé !

Quels secrets derrière cette magie mathématique ? Pour les curieux du processus, on parle ici de distillation : DeepSeek a pris un peu de la sagesse de son grand modèle R1, l’a distillée et infusée dans Qwen3-8B, pour donner naissance à cet hybride particulièrement agile sur les raisonnements mathématiques. Il en résulte un savant mélange qui tient sur une seule (grosse) carte GPU, quand l’original exige un club entier de GPU sur-vitaminées.

À quoi bon ce régime minceur ? Eh bien, dans un monde où l’on court toujours après la capacité de calcul, ce modèle light s’impose comme la solution parfaite pour les chercheurs à la bourse légère ou les start-ups qui préfèrent économiser sur la facture d’électricité plutôt que sur leurs rêves de grandeur. DeepSeek le dit lui-même sur HuggingFace : ce modèle est fait pour vos recherches ET pour vos ambitions industrielles à taille humaine.

La cerise sur le microprocesseur ? Le DeepSeek-R1-0528-Qwen3-8B est sous licence MIT, c’est-à-dire open bar, comme une soirée entre étudiants : téléchargez-le, manipulez-le, vendez-le, inutile de demander la permission ! La preuve que certains géants savent aussi faire preuve de générosité… ou au moins d’un esprit commercial bien compris.

En résumé, DeepSeek nous rappelle à tous qu’en matière d’intelligence artificielle, il ne faut pas juger un modèle à sa taille, mais à sa malice. Et si un modèle « distillé » prend aujourd’hui la lumière, c’est peut-être que, dans l’IA moderne, c’est celui qui « compresse » qui impressionne !

Source : Techcrunch