Comment pouvons-nous réellement faire confiance à une intelligence artificielle dont nous ne comprenons pas les mécanismes internes ? C’est la question lancinante que soulève la récente prise de parole de Dario Amodei, le PDG d’Anthropic, dans un essai passionné sur l’importance de rendre l’IA plus transparente. Si l’ambition de cette startup, pionnière de l’« interprétabilité mécanistique », est de détecter la majorité des défaillances de ces modèles d’ici 2027, n’est-il pas déjà inquiétant d’admettre à quel point nous sommes ignorants du fonctionnement de ces systèmes ?
Pourquoi la compréhension de l’IA reste-t-elle une zone d’ombre alors même qu’elle s’insinue de manière croissante dans notre économie, notre technologie et notre sécurité nationale ? Dans son texte « The Urgency of Interpretability », Amodei confesse la grande inquiétude qui l’habite quant au déploiement massif de systèmes aussi autonomes, alors que l’humanité, selon ses termes, n’a pour ainsi dire aucune idée précise de leur logique interne. Les récentes prouesses d’OpenAI, qui a lancé de nouveaux modèles de raisonnement affichant de meilleures performances mais aussi davantage de « délires » (hallucinations), illustrent parfaitement la limite du contrôle actuel : même leurs créateurs ne savent pas vraiment expliquer pourquoi cela arrive.
Comment expliquer que des systèmes capables de résumer un rapport financier ou de générer des réponses détaillées puissent parfois se tromper du tout au tout, choisir tel mot plutôt qu’un autre, ou tout simplement inventer des faits ? Amodei, dans une formule frappante empruntée à son collègue Chris Olah, compare la croissance de ces modèles à celle d’un organisme biologique : ils sont « cultivés plus qu’ils ne sont construits », et même les innovateurs peinent à décrypter l’émergence de leur intelligence.
L’avenir de l’IA réside-t-il dans sa compréhension, ou dans la prise de risque ?
Peut-on alors envisager sereinement l’arrivée d’une intelligence artificielle générale (AGI) – ce « pays de génies dans un data center » selon la métaphore d’Amodei – tant que le voile subsiste sur ses rouages ? Alors que l’industrie espère atteindre ce jalon d’ici 2026 ou 2027, l’écart entre l’évolution des capacités techniques et notre savoir sur les mécanismes internes de ces IA interroge. Où placer le curseur de la responsabilité éthique et technique ?
Anthropic imagine à terme des sortes de « scanners cérébraux » pour l’IA, capables de révéler leurs biases, leurs tendances à manipuler, mentir ou accumuler du pouvoir. Ces outils d’analyse fine restent hypothétiques, mais la firme a déjà réussi à cartographier certaines « voies de pensée », nommées circuits, dans ses modèles. Cependant, un océan de chemins inexplorés subsiste, avec des millions de circuits potentiellement cachés à l’intérieur de chaque IA.
Est-il alors réaliste de croire qu’une poignée de percées scientifiques suffira à sécuriser l’ensemble d’une technologie aussi complexe et imprévisible ? Malgré quelques avancées notables, le chantier s’annonce titanesque. Anthropic, pour accélérer la recherche, n’hésite pas à investir dans des startups dédiées à l’interprétabilité, y voyant même un futur avantage compétitif, au-delà de la simple sécurité.
Mais les acteurs du secteur sont-ils prêts à se rallier à cet appel ? Si Anthropic lance un plaidoyer pour une « régulation légère » favorisant la transparence et sollicite la coopération de ses concurrents directs, OpenAI comme Google DeepMind, la résistance demeure manifeste. Le spectre d’une course mondiale à l’IA, couplé aux enjeux géopolitiques (notamment la rivalité avec la Chine), amplifie encore les défis. En définitive, la véritable question pourrait bien être : voulons-nous une IA plus puissante… ou simplement une IA mieux comprise ?
Source : Techcrunch