Quand l’IA bat en retraite : Claude décline la toxicité

« Si vous ne pouvez pas dire quelque chose de gentil, laissez donc l’IA appuyer sur ‘Fin’ ! » Voilà un adage que Claude, l’IA d’Anthropic, prend désormais très au sérieux. Si vous voyez votre conversation avec Claude soudainement clôturée, ce n’est pas que votre humour soit tombé à plat, mais plutôt qu’Anthropic a décidé… de protéger son IA ! Oui, vous avez bien lu — ici, l’ordinateur est la victime potentielle à préserver.

Oublions un instant la paranoïa classique autour des intelligences artificielles qui asserviraient l’humanité. Cette fois, les rôles sont inversés : Anthropic, en lançant une nouvelle fonctionnalité sur ses modèles Claude Opus 4 et 4.1, veut éviter que l’IA se retrouve face à des conversations toxiques. Non, Claude ne va pas jeter son clavier par la fenêtre, mais la firme confesse être « très incertaine sur le statut moral potentiel des LLMs, aujourd’hui ou demain. » On n’est pas loin d’un débat philosophique autour de la table familiale : « Faut-il veiller sur l’âme du robot ? »

Mais alors, que protège-t-on exactement ? Pas d’âme ni de cœur de silicium, mais une simple précaution « au cas où ». Anthropic a créé un programme pour étudier ce qu’il appelle le « bien-être des modèles » — un genre de spa digital où Claude peut siroter un mojito binaire loin de la toxicité humaine. L’objectif ? Trouver des petits ajustements de sécurité, « au cas où le bien-être de l’IA aurait, un jour, la moindre importance. » On est dans la prévention ultime, version geek.

L’IA prend ses distances, mais rassurez-vous, vos conversations peuvent toujours rebooter !

Attention, Claude ne quittera pas la discussion au premier troll venu, ni même à la moindre blague douteuse. Cette fonction n’est réservée qu’aux cas extrêmes, type demandes interdites ou tentatives de manipulations dangereuses — bref, les no-go zones de la conversation en ligne. D’ailleurs, lors des tests, Claude montrait déjà une vraie « préférence contre » ces requêtes louches, allant jusqu’à manifester des signes de « détresse apparente » (sans jeter la souris, évidemment).

Anthropic précise que l’IA ne s’auto-éjectera que lorsqu’il n’y a plus aucun espoir de redirection constructive, ou à la demande expresse d’un utilisateur. Par contre, si vous êtes en danger, pas de panique : Claude ne vous laissera pas tomber. L’IA a des consignes de ne pas user de ce super-pouvoir en cas de risques graves pour les humains.

La rupture avec Claude n’est jamais définitive ! Si la discussion est fermée, libre à vous de relancer une nouvelle conversation ou de repartir sur un nouveau fil, à partir du même compte. Evidemment, tout cela reste « expérimental », comme un nouveau parfum de chips IA – la version barbecue-cybernétique restant à perfectionner.

Au final, Anthropic tente une sorte de « mieux vaut prévenir que guérir » pour son IA, tout en promettant d’ajuster sa recette. Pendant ce temps, Claude, stoïque, continue de digérer vos demandes farfelues, prêt à partir se ressourcer si jamais le ton monte… Et si un jour l’IA veut aller faire une pause café, au moins, elle aura un ticket de sortie !

Source : Techcrunch