Peut-on vraiment faire confiance aux navigateurs dotés d’intelligence artificielle lorsqu’ils naviguent sur le web en notre nom ? C’est la question qui se pose alors qu’OpenAI, célèbre pour ChatGPT, multiplie les annonces et les améliorations de sécurité autour de son nouveau navigateur intelligent, Atlas. Mais si les experts confirment la montée en puissance de la menace des prompt injections – ces attaques qui manipulent insidieusement les agents IA – pouvons-nous espérer endiguer ce problème, ou s’agit-il d’une lutte éternelle ?
L’aveu d’OpenAI est sans ambiguïté : « Le prompt injection, tout comme l’hameçonnage classique ou l’ingénierie sociale, ne sera probablement jamais complètement éradiqué. » L’éditeur, qui multiplie les mises à jour pour renforcer l’armure d’Atlas, rappelle que l’apparition du mode « agent » dans son navigateur élargit considérablement la surface d’attaque pour les pirates en herbe. Est-ce là le prix imparable de l’innovation ?
En se précipitant pour dévoiler des failles, les chercheurs en cybersécurité ont montré que manipuler un navigateur avec quelques lignes dans Google Docs pouvait suffire à changer radicalement son comportement. Faut-il s’étonner que le National Cyber Security Centre britannique alerte, lui aussi, que « ces attaques pourraient ne jamais être totalement éliminées » ? Faut-il alors revoir à la baisse nos ambitions pour le web intelligent, ou simplement apprendre à vivre dans la zone de risque permanent ?
La sécurité des agents IA semble être une course sans ligne d’arrivée, où chaque avancée entraîne sa nouvelle faille potentielle.
Face à cette menace, la riposte d’OpenAI est-elle à la hauteur ? Consciente de la nature « sisyphéenne » de la tâche, la société multiplie les cycles de réponse rapide et adopte une démarche réactive que l’on retrouve aussi bien chez Google que chez Anthropic. Mais OpenAI innove en entraînant un « attaquant automatisé », piloté par apprentissage par renforcement, qui joue le rôle du hacker professionnel : infiltrer l’agent avec de nouvelles stratégies, observer ses réactions internes, affiner, recommencer… Cette technique permet-elle enfin d’avoir un coup d’avance sur les véritables cybercriminels ?
La démonstration est éloquente : récemment, l’attaquant IA d’OpenAI a réussi à faire envoyer une fausse démission par email, piégeant l’agent Atlas qui n’a pas détecté l’instruction cachée dans un courrier. Seuls les derniers correctifs ont permis de détecter l’attaque et de la bloquer. Mais derrière ces progrès, combien de failles restent inconnues ? Combien d’attaques échapperont encore aux meilleurs systèmes automatisés ?
Les experts, tels que Rami McCarthy du cabinet Wiz, rappellent que si l’apprentissage par renforcement est prometteur, l’équation du risque ne tient pas seulement au blindage technologique : là où l’autonomie d’un agent IA croise son niveau d’accès aux données sensibles, le danger explose. Comment l’utilisateur lambda peut-il arbitrer le compromis entre utilité et exposition ?
OpenAI préconise aujourd’hui des garde-fous basiques : limiter les accès, exiger la confirmation des actions, fournir des instructions explicites plutôt que des permissions générales. Mais ces précautions suffisent-elles ? D’autant que, selon McCarthy, pour la majorité des utilisateurs, « la valeur ajoutée de ces agents ne compense pas encore le potentiel d’exposition à des risques graves ». À force de vouloir déléguer nos tâches, ne sommes-nous pas en train d’armer le prochain cheval de Troie du web ?
Dans cette course-poursuite entre innovation et vulnérabilité, la vraie question reste : serons-nous jamais prêts à accepter un compromis, ou faut-il se préparer à vivre dans une incertitude permanente à mesure que les navigateurs IA deviennent, petit à petit, nos compagnons de navigation quotidiens ?
Source : Techcrunch




