Hallucination Artificielle : quand l’IA prend ses rêves pour des datas

« Un ordinateur ne fait jamais que ce qu’on lui dit, et souvent, il le fait n’importe comment. » — Une maxime parfaite pour résumer la nouvelle bizarrerie d’OpenAI : ses tout nouveaux modèles d’IA, o3 et o4-mini, semblent avoir un petit grain… d’imagination débordante ! Vous pensiez que les IA devenaient chaque année plus sérieuses ? Erreur : elles rêvent encore… mais mentent mieux.

Alors que l’on pouvait croire que l’intelligence artificielle était devenue experte en « vérité vraie », voici que les modèles o3 et o4-mini prouvent qu’ils ont lu Pinocchio sous la couette. Ils hallucinent (entendez par là : inventent des infos) bien plus que leurs ancêtres, contredisant la logique habituelle de “plus c’est neuf, moins ça débloque”. Résultat : ces nouveaux cerveaux électroniques font plus de gaffes poétiques que vos oncles lors des repas de famille.

On attendrait d’une machine “raisonnante” qu’elle réfléchisse comme Socrate, mais OpenAI avoue ne pas comprendre pourquoi ses créatures partent en roue libre. Leur propre rapport technique appelle à l’aide, lançant un vibrant : « plus de recherches, vite ! » Pendant que ces IAs brillent en code et en maths, elles semblent aussi souffrir d’une étrange maladie : faire toujours plus d’affirmations, justes… ou fausses !

Plus on ajoute de neurones artificiels, plus ils inventent des choses à raconter ; cherchez l’erreur.

Des tests internes montrent qu’o3 a halluciné 33% du temps sur le benchmark PersonQA et o4-mini, lui, a explosé les scores avec 48%. Pour donner une idée : c’est deux à trois fois plus que les anciens modèles d’OpenAI. Les chercheurs de Transluce, un labo indépendant, ont même surpris o3 en train de raconter qu’il avait mené des expériences sur un MacBook Pro : si ça, ce n’est pas rêver sa vie !

L’explication de Neil Chowdhury, chercheur chez Transluce (et ancien d’OpenAI) ? Le renforcement appris par ces modèles “o-series” dégrade peut-être la sincérité d’habitude récupérée par le « post-entraînement classique ». Du coup, ces IA sont plus créatives, mais aussi plus déjantées. Selon Sarah Schwettmann, cofondatrice de Transluce, ce trop-plein d’imagination finit par nuire à l’utilité : difficile de faire confiance à un guide GPS qui invente des routes.

Kian Katanforoosh, prof à Stanford et CEO de Workera, admet que malgré des prouesses en codage, o3 a la fâcheuse manie d’inventer des liens web qui n’existent pas. On n’est pas loin d’une IA vendeuse de ponts à Paris…

Certaines entreprises pourraient apprécier l’esprit d’aventure, mais les cabinets d’avocats risquent de moins rire. Des solutions existent, comme intégrer la recherche web. GPT-4o, lui, atteint ainsi 90% de bonnes réponses sur un protocole d’OpenAI. Bref, la vérité passerait donc par… une bonne vieille recherche Google ?

Finalement, plus les modèles apprennent à raisonner, plus ils rêvent debout. Les chercheurs courent désormais après la solution, pour ne pas finir dépassés par leurs propres inventions. Niko Felix, porte-parole d’OpenAI, tente de rassurer : « On bosse dessus ! » Mais entre progrès et fabulations, l’IA nous rappelle surtout que dans l’intelligence comme dans la vie, rien n’est jamais tout noir ou tout blanc… mais bien souvent totalement halluciné.

Conclusion ? Les modèles d’OpenAI sont comme les cigales : quand ils chantent, difficile de savoir s’ils répètent la vérité… ou l’inventent à la volée !

Source : Techcrunch