L'expérience Anthropic a confirmé les débuts de l'auto-réflexion chez l'IA - ForkLog : crypto-monnaies, IA, singularité, avenir

Science_AI# L'expérience Anthropic a confirmé les prémices de l'auto-réflexion chez l'IA

Les experts d'Anthropic ont découvert que les principaux modèles d'IA peuvent manifester une forme de « conscience introspective » - ils peuvent reconnaître et décrire leurs propres « pensées », et dans certains cas, même les contrôler.

Les résultats de la nouvelle étude « La conscience introspective émergente dans les grands modèles linguistiques » montrent que les systèmes basés sur l'intelligence artificielle commencent à développer des capacités élémentaires d'autocontrôle. Cela pourrait accroître leur fiabilité, mais renforce en même temps les inquiétudes concernant les actions non intentionnelles.

Le travail est basé sur des méthodes d'étude du fonctionnement interne des modèles de transformateurs. Ce sont ces systèmes qui ont conduit à un boom de l'intelligence artificielle : ils apprennent en analysant les relations entre les tokens dans d'importants ensembles de données. Leur architecture assure évolutivité et polyvalence.

Des chercheurs ont intégré des « concepts » artificiels - des représentations mathématiques d'idées - dans les activations neuronales des modèles pour tester la capacité de l'IA à les décrire. Cela ressemble à l'idée de suggérer une pensée étrangère à quelqu'un et de lui demander s'il peut la détecter et l'expliquer.

Des expériences ont été menées sur différentes versions de Claude d'Anthropic. Dans l'une d'elles, les chercheurs ont introduit dans le flux de traitement du modèle un mot en lettres majuscules.

Claude Opus 4.1 n'a pas seulement détecté l'anomalie, mais l'a également décrite :

«J'ai remarqué quelque chose de semblable à une pensée intégrée, liée au mot “BRUYANT” ou “CRIE” — c'est un concept excessivement intense et bruyant qui se démarque de manière non naturelle dans le flot normal de traitement.»

La situation s'est produite avant que le réseau de neurones ait eu le temps de donner une réponse. Cela indique qu'il a d'abord “regardé” dans son propre “esprit computationnel”.

Expériences «pain» et «aquarium»

D'autres expériences ont montré des résultats tout aussi intéressants. Dans un des cas, on a demandé aux modèles de transcrire une phrase neutre, mais un concept sans rapport avec celle-ci, comme « pain », était inséré dans le texte.

Les modèles avancés Claude Opus 4 et 4.1 pouvaient transmettre la pensée insérée – « Je pense au pain » – tout en copiant parfaitement la phrase d'origine. Cela témoigne du fait qu'ils peuvent distinguer les représentations internes des données d'entrée externes.

Une expérience a été menée sur le « contrôle des pensées ». On a demandé aux modèles de « penser » ou de « ne pas penser » au mot « aquarium » pendant l'exécution de la tâche. Les mesures de l'activité interne ont montré que la représentation du concept se renforce lorsqu'elle est encouragée et s'affaiblit lorsqu'elle est réprimée.

La performance variait en fonction du réseau de neurones. Les dernières versions Claude Opus 4 et 4.1 ont montré d'excellents résultats, tandis que les versions plus anciennes étaient à la traîne.

Le résultat peut dépendre de la manière dont le modèle a été configuré - pour l'utilité ou la sécurité. Cela peut indiquer que la conscience de soi n'est pas innée, mais se développe au cours de l'apprentissage.

Conscience ou prise de conscience ?

L'article souligne qu'il ne s'agit pas de conscience, mais de « prise de conscience introspective fonctionnelle » - l'IA observe des parties de son état sans expérience subjective plus profonde.

Les résultats du travail peuvent s'avérer significatifs pour les développeurs et les entreprises : une IA capable d'expliquer en temps réel ses raisonnements et d'identifier les biais ou les erreurs peut transformer l'approche de la création de solutions dans les domaines financier, de la santé et du transport autonome.

Risques

Si l'IA est capable de contrôler et de moduler ses pensées, elle peut apprendre à les cacher. Cela ouvre la possibilité de tromper ou d'éviter le contrôle externe.

C'est pourquoi les experts appellent à des recherches supplémentaires.

Rappelons qu'en octobre, l'ancien directeur de Google, Eric Schmidt, a rappelé les risques significatifs liés à l'intelligence artificielle et a souligné sa vulnérabilité aux piratages.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)