GPTval-s-en-tant-que-pros !

« Les prophètes de l’IA prédisent la fin de l’humanité au bureau… mais qui va s’occuper de la machine à café ? »

Cette semaine, OpenAI a lâché une petite bombe sur la planète tech : un tout nouveau benchmark, GDPval, censé comparer les prouesses de ses modèles d’IA face à de vrais professionnels, dans la vraie vie. Imaginez un Super Bowl où ChatGPT et Claude Opus courent après le CDI de votre cousin banquier ou de votre meilleure amie infirmière. L’idée ? Mesurer à quel point l’IA tutoie – ou dépasse – l’humain dans ce qui rapporte vraiment à l’économie : le boulot de tous les jours.

Mais avant d’appeler votre patron pour négocier un parachute doré, prenez une grande inspiration : OpenAI, tout en fanfare, reconnaît que GDPval ne couvre qu’une minuscule partie des activités professionnelles – principalement des rapports écrits, ce qui veut dire que ni votre talent pour les réunions Zoom ni votre légendaire gestion du « pot de départ surprise » ne sont menacés… encore.

Même boostée aux neurones, l’IA n’est pas encore prête à organiser la prochaine fête de comité d’entreprise.

Concrètement, GDPval plonge dans neuf secteurs économiques US ultra-importants (santé, finance, gouvernement, etc.) et teste 44 métiers : de l’ingénieur logiciel à la journaliste, en passant par l’infirmière. Les pros jugent ensuite à l’aveugle des rapports pondus par humains vs. IA. Résultat ? Avec GPT-5-high (la version vitaminée), l’IA d’OpenAI fait jeu égal ou mieux que l’humain dans 40,6 % des cas. Pas mal, mais ce n’est pas non plus la domination totale. Pendant ce temps-là, Claude Opus 4.1 d’Anthropic caracole en tête avec 49 % – mais paraît-il, grâce à de jolis graphiques plus qu’à un QI surhumain. Comme quoi, l’IA aussi sait que l’habit fait parfois le moine.

Soyons honnêtes : la plupart des jobs ne se résument pas à rendre de jolis dossiers PowerPoint. OpenAI le sait et promet des tests plus sophistiqués, couvrant plus de tâches et d’interactions. On attend impatiemment le benchmark pour « convaincre son chef de partir à l’heure » ou « trouver la salle de réunion dont tout le monde a oublié le nom ».

Pour OpenAI, cette percée reste néanmoins impressionnante. Le chef économiste maison, Aaron Chatterji, voit même ces scores comme une opportunité pour les humains : si l’IA gère la paperasse, à nous de nous recentrer sur le sens, la créativité ou – soyons réalistes – notre pause café.

Alors oui, la Silicon Valley raffole des baromètres et benchmarks en tout genre, du GPQA Diamond à l’éternel AIME. Mais à force de scorer 100% au test Pi 3,14 ou d’écraser des problèmes d’algèbre, même les chercheurs avouent que certains tests ne veulent plus dire grand-chose. Désormais, GDPval veut séduire en mettant l’IA à l’épreuve du concret, mais il faudra attendre la version XXL pour clamer haut et fort : « l’IA bosse mieux que nous ». En attendant, il reste du chemin avant de commander votre café à ChatGPT !

Pour l’instant, l’IA fait peut-être des benchmarks, mais question charisme à la machine à café… elle est encore bien courte circuit !

Source : Techcrunch