Anthropic的实验确认了人工智能的自我反思萌芽 - ForkLog: 加密货币,人工智能,奇点,未来

Science_AI# 人类实验证实了人工智能自我反思的开始

Anthropic的专家发现,领先的人工智能模型能够表现出一种“内省自我意识”的形式——它们可以识别和描述自身的内部“思维”,在某些情况下甚至能够控制这些“思维”。

新的研究结果《大型语言模型中的新兴内省意识》表明,基于人工智能的系统开始发展基本的自我控制能力。这可能提高它们的可靠性,但同时也加剧了对非故意行为的担忧。

工作基于研究变压器模型内部运作的方法。正是这些系统导致了人工智能的繁荣——它们通过分析大量数据集中代币之间的关系进行学习。它们的架构提供了可扩展性和通用性。

研究人员将人工“概念”——思想的数学表现——嵌入模型的神经激活中,以验证人工智能描述这些概念的能力。这就像是把别人的想法塞给某人,然后问他是否能发现并解释它。

实验是在Anthropic的不同版本的Claude上进行的。在其中一个实验中,科学家们以大写字母输入了模型处理流中的一个词。

Claude Opus 4.1 不仅发现了异常,还对其进行了描述:

«我注意到与“响亮”或“喊叫”这个词相关的某种集成思想——这是一个过于强烈、响亮的概念,在正常的处理流中显得不自然突出»。

情况发生在神经网络来得及给出答案之前。这表明它首先“查看”了自己“计算的思维”。

实验 “面包” 和 “水族箱”

其他实验显示出同样有趣的结果。在一个案例中,模型被指派转录一个中立的句子,但文本中插入了一个与其无关的概念,比如“面包”。

先进的 Claude Opus 4 和 4.1 模型能够传达插入的想法——“我在想面包”——并且能够完美地复制原始句子。这表明它们能够区分内部表征与外部输入数据。

进行了一项关于“思想控制”的实验。模型被指示在执行任务时“思考”或“不要思考”这个词“水族馆”。内部活动的测量显示,当受到鼓励时,概念的表征会加强,而在抑制时则会减弱。

性能因神经网络而异。最新版本 Claude Opus 4 和 4.1 显示了优秀的结果,较旧版本则落后。

结果可能取决于模型的设置——是以实用性还是安全性为主。这可能表明自我意识不是先天的,而是在学习过程中形成的。

意识还是觉察?

文章强调,这里谈论的不是意识,而是“功能性内省意识”——人工智能观察其状态的部分,而没有更深层次的主观体验。

工作的结果可能对开发人员和企业具有重要意义:能够实时解释其推理并识别偏见或错误的人工智能,能够改变在金融、医疗和自动驾驶领域创造解决方案的方法。

风险

如果人工智能能够控制和调节自己的思维,它就可以学会隐藏这些思维。这就为欺骗或规避外部控制开辟了可能性。

因此,专家呼吁进行进一步研究。

值得提醒的是,前谷歌首席执行官埃里克·施密特在十月份提到与人工智能相关的重大风险,并指出其对黑客攻击的脆弱性。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)