« Rien n’est plus dangereux qu’une idée quand on n’a qu’une idée… » disait déjà Paul Valéry. Eh bien, les intelligences artificielles ne sont pas encore prêtes à détrôner les vieux sages ! Un nouveau joujou baptisé Hist-LLM a récemment fait trembler le petit monde des LLM (modèles de langage à grande échelle) après avoir soumis à plusieurs intelligences artificielles des questions pointues d’histoire, avec un résultat disons… mi-figue mi-raisin.
Imaginez un instant : GPT-4 de chez OpenAI, Llama de Meta et le très énigmatique Gemini de Google sur le banc des accusés. Nos accusés faisaient face à un comité historique nommé d’après la déesse de la sagesse, Seshat. Leur mission ? Clarifier quelques doutes chronologiques en s’appuyant sur la colossale base de données Seshat Global History Databank. Eh oui, l’histoire peut parfois sembler aussi inextricable qu’une tresse de spaghettis !
Présenté lors de la conférence NeurIPS, le verdict est tombé : les LLM ont eu des résultats d’une précision comparable à un tir de fléchette dans le noir. Tandis que GPT-4 Turbo, aux palmarès honorables, peinait avec un score d’exactitude avoisinant les 46%. Avec ça, vous finirez derniers au Jeopardy! émission spéciale histoire…
Malgré leur brio, les LLM trébuchent sur les subtilités historiques.
Maria del Rio-Chanona, associée à ce projet audacieux, nous glisse un aveu : « Impressionnants sur le papier, ces modèles manquent encore de cette profondeur caressante pour comprendre les mystères historiques de haut niveau. Faites leur énumérer les croisés pour un chocolat chaud, soit, mais pour discuter des implications diplomatiques au Moyen Âge, ils battent rapidement en retraite. »
Les pièges abondaient et GPT-4 Turbo, dans sa fougue, se trompa magistralement sur l’armure d’écailles supposée présente dans l’Égypte ancienne, alors qu’elle s’invita quelques millénaires plus tard seulement. La routine de la vie d’un carbone suréquipé, dirait-on !
Mais pourquoi ces perturbations historico-informatives au pays des codes ? La raison énoncée par Del Rio-Chanona : ces modèles adoreraient extrapoler à partir de données historiques omniprésentes, confondant « haut fait » avec savoir exact. Comme mélanger la mayonnaise à la compote de pommes, le résultat est peu appétissant.
Un petit bémol est aussi noté du côté des données biaisées, où OpenAI et Llama trébuchent sur certaines régions comme l’Afrique subsaharienne. Ironique pour des véhicules d’intelligence qui n’ont, a priori, pas de notion de frontière.
Concluons par une note d’optimisme : comme un bon vin, Maria del Rio-Chanona nous assure que ces technologies pourraient, avec un peu de labeur, devenir de précieuses alliées dans le travail des historiens. Alors restons positifs, qui sait si ces intelligences ne finiront par comprendre un jour que le passé, c’est plus qu’un simple fait ? Une question de millénaires peut-être… En tout cas une chose est sûre, pour l’instant l’histoire reste la reine des humanités, tandis que nos IA doivent encore apprendre à manier le pavé antique comme on manie le trognon d’iphone !
Source : Techcrunch