OpenAI, une nouvelle fois au cœur de la controverse ? Lors de la présentation de son modèle o3, l’entreprise affirmait des résultats mathématiques exceptionnels. Mais à y regarder de plus près, la réalité semble bien plus nuancée. Comment expliquer l’écart grandissant entre les discours officiels d’OpenAI et les tests indépendants menés par des laboratoires extérieurs ?
Lors de son annonce en décembre, OpenAI promettait que o3 pouvait réussir plus de 25 % des questions du très exigeant benchmark FrontierMath – un score largement supérieur à la concurrence plafonnant à 2 %. Mais qui bénéficie vraiment de ce coup de théâtre médiatique ? Quelles étaient les conditions exactes qui ont permis d’atteindre ce résultat ?
Peu après, Epoch AI – l’institut à l’origine de FrontierMath – publie à son tour ses propres évaluations. Verdict sans appel : le score de o3 plafonne en réalité à 10 % sur ce benchmark. Pourquoi une telle différence ? Les tests internes d’OpenAI reflètent-ils la performance réelle du modèle ou bien ont-ils été menés avec des ressources informatiques particulièrement intensives et inaccessibles au public ?
À l’heure où la course à l’IA bat son plein, peut-on encore se fier aux scores annoncés par les constructeurs de modèles eux-mêmes ?
OpenAI s’est-elle livrée à une surenchère ? Pas forcément, si l’on examine de plus près la méthodologie : l’entreprise avait bien indiqué une fourchette basse, qui correspond au score obtenu par Epoch, tout en précisant que leur test avait utilisé une configuration plus musclée ou un sous-ensemble différent de FrontierMath. Mais l’essentiel ne serait-il pas que la version publique du modèle, accessible à tous, atteigne ces résultats spectaculaires ?
Un autre acteur, ARC Prize Foundation, a confirmé sur X (ex-Twitter) que la version du modèle testée publiquement est différente de la version interne ayant obtenu les meilleurs résultats. S’agit-il d’une confusion savamment entretenue ou simplement d’exigences techniques propres à la commercialisation ? Les versions “mini” d’o3 et d’o4, quant à elles, surclassent déjà o3 sur FrontierMath, mais pourquoi alors concentrer la communication sur la version standard ?
En définitive, cette histoire nous rappelle l’importance de la prudence face aux annonces marketing de l’industrie IA. Les polémiques autour des benchmarks se multiplient : de la divulgation tardive de financements suspects à la publication de graphiques avantageux mais trompeurs, l’objectivité des évaluations semble de plus en plus compromise. Le secteur court-il à la surenchère permanente ?
La question fondamentale reste pourtant entière : comment garantir la transparence et la comparabilité des benchmarks, alors que chaque entreprise ajuste ses paramètres, son jeu de test ou son niveau de puissance de calcul ? L’utilisateur final, lui, n’est-il pas en droit d’attendre des informations claires, honnêtes et comparables, loin des effets d’annonce ?
Source : Techcrunch