Pourquoi, malgré tous les progrès de l’IA, les chatbots comme ChatGPT continuent-ils à “halluciner” et à affirmer avec assurance des contre-vérités ? Cette faille n’aurait-elle pas dû être corrigée depuis le temps ? Au fond, est-ce un problème insoluble ou la conséquence de choix techniques révisables ?
Un récent rapport d’OpenAI relance la polémique : ces IA, dont GPT-5 est la figure de proue attendue, flipent-elles éternellement entre vérité et invention ? Les auteurs du rapport avouent : les hallucinations, ces affirmations “plausibles mais fausses”, restent une épine dans le pied de l’intelligence artificielle. Pire, ils admettent qu’elles “ne seront jamais totalement éliminées”. Dès lors, sommes-nous condamnés à toujours douter des réponses des IA, même les plus avancées ?
L’exemple choisi par les chercheurs est édifiant : en interrogeant un fameux chatbot sur la thèse de doctorat d’Adam Tauman Kalai, un des chercheurs, la machine a inventé trois titres erronés… puis a récidivé en donnant trois mauvaises dates d’anniversaire. La question se pose : pourquoi ces IA donnent-elles constamment l’impression d’avoir raison, même lorsqu’elles se trompent lourdement ? OpenAI incrimine notamment la phase de pré-entraînement, où les modèles apprennent uniquement à prédire le “mot suivant”—jamais à distinguer le vrai du faux.
Les évaluations actuelles poussent-elles les modèles à “deviner” au lieu de reconnaître leur ignorance ?
Une explication centrale réside dans la manière dont les IA sont actuellement notées : comme lors d’un examen à choix multiples, il vaut mieux tenter une réponse, même hasardeuse, que de laisser un blanc. La conséquence ? Les modèles d’IA apprennent à deviner, puisque les critères d’évaluation valorisent la tentative d’une réponse juste, même si celle-ci est une “chance”. Pourquoi ne pas simplement programmer l’IA pour qu’elle avoue son ignorance ? Est-ce si difficile ou bien les incentives sont-ils pervers ?
OpenAI propose une piste aussi simple que radicale : revoir la manière de mesurer la performance. Si l’on pénalisait plus strictement les erreurs affichées avec aplomb, voire si l’on gratifiait l’incertitude assumée (“Je ne sais pas.”), les modèles auraient-ils moins tendance à inventer ? On pense ici aux épreuves du baccalauréat avec points négatifs pour réponses fausses… Le parallèle est troublant. Est-il temps de remplacer les barèmes actuels par des notes qui récompensent la prudence ?
Les chercheurs vont plus loin : il ne s’agit pas d’ajouter quelques tests “incertitude-friendly” pour la forme, mais bien de transformer de fond en comble l’évaluation dominante “basée sur l’exactitude”. Tant que les IA recevront des points pour des réponses fausses mais plausibles, elles continueront d’apprendre à… mentir sans ciller. Et si le principal obstacle n’était pas l’algorithme lui-même, mais la façon dont nous le jugeons ?
Alors, la solution passerait-elle vraiment par une révolution de l’évaluation ? Ou bien ces hallucinations sont-elles en réalité indissociables du fonctionnement même des IA génératives ? Dans cette nouvelle course à la fiabilité, saurons-nous, un jour, enseigner à nos machines la sagesse du doute ?
Source : Techcrunch




