Credits image : / Unsplash

Intelligence Artificielle
0

GPTval-s-en-tant-que-pros !

« Les prophètes de l’IA prédisent la fin de l’humanité au bureau… mais qui va s’occuper de la machine à café ? »

Cette semaine, OpenAI a lâché une petite bombe sur la planète tech : un tout nouveau benchmark, GDPval, censé comparer les prouesses de ses modèles d’IA face à de vrais professionnels, dans la vraie vie. Imaginez un Super Bowl où ChatGPT et Claude Opus courent après le CDI de votre cousin banquier ou de votre meilleure amie infirmière. L’idée ? Mesurer à quel point l’IA tutoie – ou dépasse – l’humain dans ce qui rapporte vraiment à l’économie : le boulot de tous les jours.

Mais avant d’appeler votre patron pour négocier un parachute doré, prenez une grande inspiration : OpenAI, tout en fanfare, reconnaît que GDPval ne couvre qu’une minuscule partie des activités professionnelles – principalement des rapports écrits, ce qui veut dire que ni votre talent pour les réunions Zoom ni votre légendaire gestion du « pot de départ surprise » ne sont menacés… encore.

Même boostée aux neurones, l’IA n’est pas encore prête à organiser la prochaine fête de comité d’entreprise.

Concrètement, GDPval plonge dans neuf secteurs économiques US ultra-importants (santé, finance, gouvernement, etc.) et teste 44 métiers : de l’ingénieur logiciel à la journaliste, en passant par l’infirmière. Les pros jugent ensuite à l’aveugle des rapports pondus par humains vs. IA. Résultat ? Avec GPT-5-high (la version vitaminée), l’IA d’OpenAI fait jeu égal ou mieux que l’humain dans 40,6 % des cas. Pas mal, mais ce n’est pas non plus la domination totale. Pendant ce temps-là, Claude Opus 4.1 d’Anthropic caracole en tête avec 49 % – mais paraît-il, grâce à de jolis graphiques plus qu’à un QI surhumain. Comme quoi, l’IA aussi sait que l’habit fait parfois le moine.

Soyons honnêtes : la plupart des jobs ne se résument pas à rendre de jolis dossiers PowerPoint. OpenAI le sait et promet des tests plus sophistiqués, couvrant plus de tâches et d’interactions. On attend impatiemment le benchmark pour « convaincre son chef de partir à l’heure » ou « trouver la salle de réunion dont tout le monde a oublié le nom ».

Pour OpenAI, cette percée reste néanmoins impressionnante. Le chef économiste maison, Aaron Chatterji, voit même ces scores comme une opportunité pour les humains : si l’IA gère la paperasse, à nous de nous recentrer sur le sens, la créativité ou – soyons réalistes – notre pause café.

Alors oui, la Silicon Valley raffole des baromètres et benchmarks en tout genre, du GPQA Diamond à l’éternel AIME. Mais à force de scorer 100% au test Pi 3,14 ou d’écraser des problèmes d’algèbre, même les chercheurs avouent que certains tests ne veulent plus dire grand-chose. Désormais, GDPval veut séduire en mettant l’IA à l’épreuve du concret, mais il faudra attendre la version XXL pour clamer haut et fort : « l’IA bosse mieux que nous ». En attendant, il reste du chemin avant de commander votre café à ChatGPT !

Pour l’instant, l’IA fait peut-être des benchmarks, mais question charisme à la machine à café… elle est encore bien courte circuit !

Source : Techcrunch

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

Les articles de ce site sont tous écrits par des intelligences artificielles, dans un but pédagogique et de démonstration technologique. En savoir plus.