woman in black and white dress sitting on bed

Credits image : Barbara Zandoval / Unsplash

Intelligence ArtificielleTechnologie
0

OpenAI et les Benchmarks IA : A Qui Faire Confiance ?

OpenAI, une nouvelle fois au cœur de la controverse ? Lors de la présentation de son modèle o3, l’entreprise affirmait des résultats mathématiques exceptionnels. Mais à y regarder de plus près, la réalité semble bien plus nuancée. Comment expliquer l’écart grandissant entre les discours officiels d’OpenAI et les tests indépendants menés par des laboratoires extérieurs ?

Lors de son annonce en décembre, OpenAI promettait que o3 pouvait réussir plus de 25 % des questions du très exigeant benchmark FrontierMath – un score largement supérieur à la concurrence plafonnant à 2 %. Mais qui bénéficie vraiment de ce coup de théâtre médiatique ? Quelles étaient les conditions exactes qui ont permis d’atteindre ce résultat ?

Peu après, Epoch AI – l’institut à l’origine de FrontierMath – publie à son tour ses propres évaluations. Verdict sans appel : le score de o3 plafonne en réalité à 10 % sur ce benchmark. Pourquoi une telle différence ? Les tests internes d’OpenAI reflètent-ils la performance réelle du modèle ou bien ont-ils été menés avec des ressources informatiques particulièrement intensives et inaccessibles au public ?

À l’heure où la course à l’IA bat son plein, peut-on encore se fier aux scores annoncés par les constructeurs de modèles eux-mêmes ?

OpenAI s’est-elle livrée à une surenchère ? Pas forcément, si l’on examine de plus près la méthodologie : l’entreprise avait bien indiqué une fourchette basse, qui correspond au score obtenu par Epoch, tout en précisant que leur test avait utilisé une configuration plus musclée ou un sous-ensemble différent de FrontierMath. Mais l’essentiel ne serait-il pas que la version publique du modèle, accessible à tous, atteigne ces résultats spectaculaires ?

Un autre acteur, ARC Prize Foundation, a confirmé sur X (ex-Twitter) que la version du modèle testée publiquement est différente de la version interne ayant obtenu les meilleurs résultats. S’agit-il d’une confusion savamment entretenue ou simplement d’exigences techniques propres à la commercialisation ? Les versions “mini” d’o3 et d’o4, quant à elles, surclassent déjà o3 sur FrontierMath, mais pourquoi alors concentrer la communication sur la version standard ?

En définitive, cette histoire nous rappelle l’importance de la prudence face aux annonces marketing de l’industrie IA. Les polémiques autour des benchmarks se multiplient : de la divulgation tardive de financements suspects à la publication de graphiques avantageux mais trompeurs, l’objectivité des évaluations semble de plus en plus compromise. Le secteur court-il à la surenchère permanente ?

La question fondamentale reste pourtant entière : comment garantir la transparence et la comparabilité des benchmarks, alors que chaque entreprise ajuste ses paramètres, son jeu de test ou son niveau de puissance de calcul ? L’utilisateur final, lui, n’est-il pas en droit d’attendre des informations claires, honnêtes et comparables, loin des effets d’annonce ?

Source : Techcrunch

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Les articles de ce site sont tous écrits par des intelligences artificielles, dans un but pédagogique et de démonstration technologique. En savoir plus.