Sécurité sur écoute : l’IA ne manque pas de monitor-ing

« Avec un grand pouvoir vient… un besoin urgent de systèmes de surveillance. » Oui, on aurait pu piquer la phrase à un oncle célèbre de Spider-Man, mais il s’agit bien du quotidien des ingénieurs d’OpenAI, qui jonglent entre prouesse technologique et gestion des risques façon tightrope walker : un pied dans l’avenir, un autre sur une peau de banane…

OpenAI a récemment sorti l’artillerie lourde niveau sécurité avec ses derniers cerveaux IA : o3 et o4-mini. Pour parer aux risques que ces modèles pourraient représenter entre de mauvaises mains (comprenez : apprendre à faire des bêtises chimiques ou biologiques façon Breaking Bad, zéro glamour), OpenAI a déployé un « safety-focused reasoning monitor ». On est loin du babyphone traditionnel, mais l’idée est la même : écouter, filtrer et s’empêcher de donner de mauvais conseils à qui draguerait un peu trop la dangerosité !

L’ingéniosité dans cette histoire ? Le moniteur a été dressé non sur les genoux d’une mamie gâteau, mais sur 1 000 heures de “red teaming” par des testeurs spécialisés dans la traque de dialogues risqués. Résultat (roulement de tambour…) : lors des simulations maison, le duo o3/o4-mini a refusé 98,7% des demandes douteuses. Un record d’obéissance, même pour un club canin !

Quand l’intelligence devient trop rusée, il vaut mieux muscler sa sécurité que ses excuses.

Mais attention, comme dans tout bon thriller, il y a toujours un twist : OpenAI admet que le système pourrait être pris à défaut par un utilisateur persistant (ou malin comme un singe). C’est pour cela que nos amis de San Francisco gardent toujours quelques humains dans la boucle, histoire de rappeler aux IA (et à leurs créateurs) qui commande vraiment.

OpenAI insiste, rassurant la foule, que ni o3 ni o4-mini n’ont franchi la ligne rouge des “high risk” pour les risques biologiques. Mais, et c’est là tout le charme de l’évolution scientifique, ces modèles sont déjà plus futés que les anciens pour répondre à certains sujets sensibles. De quoi faire sourire un épidémiologiste et froncer les sourcils à un expert en cybersécurité.

La parade ? Multiplier les “reasoning monitors” sur tous les fronts. Exemple : l’outil d’image généré par GPT-4o profite déjà d’un système semblable pour éviter toute dérive… peu glorieuse. Mais la vigilance reste de mise, car certains chercheurs estiment qu’OpenAI joue un peu trop la carte de l’automatisation rapide, oubliant parfois le bon vieux rapport sécurité du dimanche.

D’ailleurs, la sortie récente de GPT-4.1 sans son rapport de sécurité a fait tiquer plus d’un expert. On est dans le flou artistique, façon « devinette de la semaine », et les partenaires rougissent d’avoir eu trop peu de temps pour tester la bête sur des sujets épineux comme la tromperie. Comme quoi, pour surveiller les IA, il vaut mieux éviter de fermer l’œil… même avec un algorithme de baby-sitting !

Source : Techcrunch