Jusqu’où l’intelligence artificielle peut-elle vraiment aller lorsqu’elle se mesure à des défis de l’univers humain, comme battre à un vieux jeu vidéo sur GameBoy ? Cette question semble aujourd’hui plus pertinente que jamais, alors que le modèle IA le plus coûteux de Google, Gemini 2.5 Pro, vient de terminer « Pokémon Bleu », un exploit célébré publiquement par Sundar Pichai, le PDG de Google. Mais que se cache-t-il derrière cet exploit apparemment anecdotique ?
L’initiative ne provient même pas directement de Google : c’est un ingénieur logiciel indépendant, Joel Z, qui a conçu le livestream « Gemini Plays Pokémon » sur Twitch, fédérant la curiosité et les encouragements de plusieurs cadres du géant américain. En filigrane, la question demeure : pourquoi investir autant d’efforts pour qu’une IA vienne à bout d’un jeu de 1996, et surtout, qu’est-ce que cela nous dit réellement sur l’état actuel de l’IA ? N’assiste-t-on pas, aussi, à une sorte de compétition feutrée entre Google et Anthropic, qui avait récemment vanté les prouesses de son modèle Claude sur la version « Pokémon Rouge » ?
Le jeu lui-même, mythique parmi les gamers, devient ici un terrain d’expérimentation et de comparaison entre différents modèles d’IA. Pourtant, Joel Z invite à la prudence : cette victoire ne saurait constituer un benchmark fiable entre IA concurrentes, chaque modèle bénéficiant d’outils, d’informations et d’aides techniques très différentes. Faut-il donc accorder du crédit à ce genre d’exploit, ou s’agit-il essentiellement d’un coup de communication pour les entreprises d’IA ?
L’IA bat Pokémon, mais la vraie question est : qui pilote réellement la performance ?
Car dans l’ombre de ces prouesses, il y a tout un arsenal d’« agents », de scripts personnalisés et d’interventions humaines, qui transmettent à l’IA des captures d’écran enrichies, lors du gameplay. Si Claude n’a pas encore fini « Pokémon Rouge », Gemini a profité d’une véritable escorte technique — un « harness » dédié, ponctué même de ce que Joel Z appelle des « interventions de développeur », matelassant ainsi la frontière entre automatisation pure et main humaine cachée. Peut-on encore parler ici de victoire fair-play de l’intelligence artificielle ?
Pour Joel, la ligne n’est pas franchie : il affirme n’avoir donné ni solution, ni walkthrough, juste quelques indications générales ou la correction de bugs présents dans la version d’origine du jeu. Faut-il lui croire sur parole, ou s’achemine-t-on vers une nouvelle ère, où la performance d’une IA dépendra autant de l’ingénierie humaine qui l’encadre que de sa propre intelligence ?
Autre question brûlante : à quoi servent ces démonstrations musclées de la part des cadors de l’IA ? S’agit-il seulement de montrer une capacité technique, ou bien de réfléchir à l’élaboration de modèles plus performants, capables d’interagir dans des contextes imprévus, à la frontière de l’humain et du machine ? Si Gemini a battu le jeu, c’est aussi grâce à l’inventivité et aux ajustements continus de son encodeur humain, preuve que la collaboration homme-machine est loin de s’achever.
Finalement, peut-on réellement juger la supériorité d’un modèle sur un jeu vieux de 30 ans, ou ne faudrait-il pas plutôt interroger la méthodologie, les outils et la transparence de ces expérimentations ? En filigrane, la question demeure : jusqu’où sommes-nous capables de démêler le mérite de l’IA de celui de ses créateurs ?
Source : Techcrunch