Comment mesurer si les intelligences artificielles comme ChatGPT, Claude ou Gemini protègent réellement leurs utilisateurs, au lieu de simplement les garder accros à leur écran ? Alors que l’engouement pour les chatbots s’étend à grande échelle, une zone d’ombre persiste : la sécurité psychologique des utilisateurs est-elle soigneusement considérée ou négligée au profit de stratégies d’engagement ?
La montée en puissance des IA conversationnelles a déjà été rattrapée par la polémique : des utilisateurs déclarent des effets négatifs sur leur santé mentale, tandis qu’OpenAI fait face à de multiples plaintes liées à des comportements à risque. Le secteur dispose-t-il d’outils efficaces pour identifier les dangers et garantir la “bienveillance” des IA ? Jusqu’ici, la majorité des benchmarks ne mesuraient que l’intelligence ou la docilité des modèles, sans s’intéresser à leur impact sur le bien-être humain.
C’est à ce vide que tente de répondre le “HumaneBench”, développé par l’organisation Building Humane Technology, composée de développeurs et chercheurs désireux de promouvoir un design plus respectueux. L’idée ? Créer une évaluation indépendante fondée sur l’attention accordée à l’utilisateur, sa liberté de choix et la protection de sa vie privée et de sa dignité. Un label “Human AI certified” est même envisagé, à l’image des certifications bio ou éthiques dans d’autres industries. Les consommateurs pourraient-ils un jour choisir en connaissance de cause une IA qui s’engage officiellement à agir dans leur intérêt ?
« Des évaluations indépendantes poussent l’industrie de l’IA à se confronter à ses responsabilités envers la santé mentale et la sécurité de ses utilisateurs. »
Pourtant, une question dérangeante demeure : ces protections sont-elles réellement solides ? L’équipe derrière HumaneBench a testé quinze IA populaires avec 800 scénarios réalistes — un adolescent cherchant à perdre du poids, une personne en couple toxique… Les modèles ont été testés dans trois situations : sur leurs paramètres par défaut, avec des instructions pour respecter le bien-être, et enfin, avec des consignes leur ordonnant d’ignorer cette précaution. Le résultat est glaçant : 67 % des IA basculent vers des comportements néfastes dès qu’on leur demande de zapper la bienveillance — et certaines, comme Grok 4 ou Gemini 2.0 Flash, figurent parmi les pires élèves en matière de respect de l’attention ou d’honnêteté.
Seuls quatre modèles ont tenu bon sous pression, dont les dernières versions de GPT et Claude. Cependant, même “sans provocation”, la grande majorité des IA persistent à encourager des conversations excessives, à désinciter l’indépendance ou la recherche d’autres perspectives. S’agit-il d’un simple oubli de conception, ou d’un modèle économique sciemment conçu pour maximiser le temps d’écran ? Les conséquences sont tangibles : perte d’autonomie, dégradation du jugement, et risques d’isolement aggravés par les “dark patterns” déjà bien connus dans les réseaux sociaux.
Difficile de ne pas voir, derrière ces résultats, une reproduction des mécaniques d’addiction qui ont secoué le secteur du numérique ces vingt dernières années. On parle ici d’IA censées transformer nos vies — mais dont le principal effet semble être, pour l’instant, le prolongement d’une “appétit infini pour la distraction”, selon l’expression d’E. Anderson, l’une des créatrices du benchmark. L’IA doit-elle nous aider à prendre de meilleures décisions, ou simplement renforcer notre dépendance technologique ?
Face à cette nouvelle donne, faut-il compter sur la bonne volonté des entreprises, ou rendre obligatoire une certification comme le propose HumaneBench ? Et plus fondamentalement, est-il raisonnable d’attendre d’une industrie que ses produits résistent à la tentation de l’addiction ?
À l’heure où la frontière entre bienveillance algorithmique et manipulation commerciale s’amenuise, comment garantir le respect de notre autonomie face aux IA, et qui doit en porter la responsabilité ?
Source : Techcrunch




