La sécurité des IA peut-elle garantir l’innocuité de leur utilisation?
Comment pouvons-nous pousser une intelligence artificielle à répondre à une question qu’elle n’est pas censée aborder? Une nouvelle technique de «jailbreak» découle des travaux des chercheurs de chez Anthropic, qui ont mis en lumière une méthode permettant de contourner les limitations imposées à ces systèmes. Est-ce que demander une succession de questions moins nuisibles pourrait…
