« Si vous pensez que les mathématiques ne sont que des chiffres, n’essayez pas l’intelligence artificielle, elle pourrait vous tirer quelques zéros de plus ! » Qu’on se le dise, les histoires d’algorithmes et de fonds secrets ne sont pas moins palpitantes que celles que l’on trouve dans les romans à suspense. Aujourd’hui, plongeons dans les dessous d’un mystère chiffré avec notre équation au cœur du problème : Epoch AI, OpenAI, et un scandale digne d’un film de détective.
Ne vous fiez pas à l’apparente simplicité de FrontierMath. Concocté avec amour par Epoch AI, ce test de mathématiques pour IA, avec un niveau de difficulté digne des olympiades, s’était révélé être un outil de démonstration pour la star montante d’OpenAI, le fameux modèle o3. Mais le clou du spectacle ? Epoch AI a gardé sous silence un petit détail de taille : OAI a financé le projet. Oups ?
C’est dans un message sur le forum LessWrong, que « Meemi », un contributeur d’Epoch AI, a pointé du doigt ce petit oubli de communication. Et comme une équation mal balancée, l’annonce publique du financement d’OpenAI n’a pas suivi l’ordre attendu et a eu l’effet d’une bombe dans la communauté IA. Apercevant de loin le spectre du conflit d’intérêt, on comprend pourquoi certains internautes ont fait part de leur déception à coups de posts acerbes sur Reddit.
Quand il s’agit de maths, les divisions sont souvent plus délicates à gérer que les additions.
Dans une réponse à Meemi, Tamay Besiroglu, le directeur associé d’Epoch AI, tente de désamorcer la situation. Il admet que le « manque de transparence » a été une erreur et qu’Epoch AI aurait dû se battre pour plus de clarté dès le départ. Quant aux mathématiciens impliqués, Besiroglu pense qu’ils méritaient de savoir qui aurait pu utiliser leur travail. Eh bien, mieux vaut tard que jamais… mais attention à ne pas se prendre pour une racine carrée d’un nombre négatif.
Cela dit, OpenAI et Epoch AI ont un « accord verbal » pour ne pas transformer FrontierMath en matériel d’apprentissage pour leur algorithme. Avec un ensemble de données distinct, Epoch AI assure une vérification indépendante. Mais la confiance, c’est comme la gravité : dur à obtenir, facile à perdre. Ellot Glazer, mathématicien en chef d’Epoch AI, a même admis sur Reddit ne pas avoir pu vérifier les résultats annoncés par OpenAI, laissant place au doute.
Malgré tout, Glazer se dit confiant : « [Le score d’OpenAI] est probablement légitime », pense-t-il, ne voyant aucune incitation à fausser les résultats. Cependant, tant que l’évaluation indépendante n’est pas achevée, on reste en suspens. Bien sûr, cette aventure avec ses rebondissements est un exemple supplémentaire des défis posés par les benchmarks dans le monde de l’IA, où les allégations de partialité flottent dans l’air dès qu’un contrat est rempli.
En fin de compte, créer des benchmarks IA est un peu comme résoudre un problème de maths un soir d’été : la sueur coule, mais seuls les plus audacieux avancent ! En attendant, pour ceux qui craignent que cette histoire leur prenne la tête, rappelez-vous que même un algorithme a besoin d’un peu d’humour de temps en temps. Après tout, pourquoi ne pas ajouter un sourire à notre équation ?!
Source : Techcrunch