Anthropic的实验确认了人工智能的自我反思萌芽 - ForkLog: 加密货币，人工智能，奇点，未来

2025-10-31 12:38:38

Science_AI # 人类实验证实了人工智能自我反思的开始

Anthropic的专家发现，领先的人工智能模型能够表现出一种“内省自我意识”的形式——它们可以识别和描述自身的内部“思维”，在某些情况下甚至能够控制这些“思维”。

新的研究结果《大型语言模型中的新兴内省意识》表明，基于人工智能的系统开始发展基本的自我控制能力。这可能提高它们的可靠性，但同时也加剧了对非故意行为的担忧。

工作基于研究变压器模型内部运作的方法。正是这些系统导致了人工智能的繁荣——它们通过分析大量数据集中代币之间的关系进行学习。它们的架构提供了可扩展性和通用性。

研究人员将人工“概念”——思想的数学表现——嵌入模型的神经激活中，以验证人工智能描述这些概念的能力。这就像是把别人的想法塞给某人，然后问他是否能发现并解释它。

实验是在Anthropic的不同版本的Claude上进行的。在其中一个实验中，科学家们以大写字母输入了模型处理流中的一个词。

Claude Opus 4.1 不仅发现了异常，还对其进行了描述：

«我注意到与“响亮”或“喊叫”这个词相关的某种集成思想——这是一个过于强烈、响亮的概念，在正常的处理流中显得不自然突出»。

情况发生在神经网络来得及给出答案之前。这表明它首先“查看”了自己“计算的思维”。

实验 “面包” 和 “水族箱”

其他实验显示出同样有趣的结果。在一个案例中，模型被指派转录一个中立的句子，但文本中插入了一个与其无关的概念，比如“面包”。

先进的 Claude Opus 4 和 4.1 模型能够传达插入的想法——“我在想面包”——并且能够完美地复制原始句子。这表明它们能够区分内部表征与外部输入数据。

进行了一项关于“思想控制”的实验。模型被指示在执行任务时“思考”或“不要思考”这个词“水族馆”。内部活动的测量显示，当受到鼓励时，概念的表征会加强，而在抑制时则会减弱。

性能因神经网络而异。最新版本 Claude Opus 4 和 4.1 显示了优秀的结果，较旧版本则落后。

结果可能取决于模型的设置——是以实用性还是安全性为主。这可能表明自我意识不是先天的，而是在学习过程中形成的。

文章强调，这里谈论的不是意识，而是“功能性内省意识”——人工智能观察其状态的部分，而没有更深层次的主观体验。

工作的结果可能对开发人员和企业具有重要意义：能够实时解释其推理并识别偏见或错误的人工智能，能够改变在金融、医疗和自动驾驶领域创造解决方案的方法。

如果人工智能能够控制和调节自己的思维，它就可以学会隐藏这些思维。这就为欺骗或规避外部控制开辟了可能性。

因此，专家呼吁进行进一步研究。

值得提醒的是，前谷歌首席执行官埃里克·施密特在十月份提到与人工智能相关的重大风险，并指出其对黑客攻击的脆弱性。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

0/400

暂无评论