Gate 广场「创作者认证激励计划」开启:入驻广场,瓜分每月 $10,000 创作奖励!
无论你是广场内容达人,还是来自其他平台的优质创作者,只要积极创作,就有机会赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
参与资格:
满足以下任一条件即可报名👇
1️⃣ 其他平台已认证创作者
2️⃣ 单一平台粉丝 ≥ 1000(不可多平台叠加)
3️⃣ Gate 广场内符合粉丝与互动条件的认证创作者
立即填写表单报名 👉 https://www.gate.com/questionnaire/7159
✍️ 丰厚创作奖励等你拿:
🎁 奖励一:新入驻创作者专属 $5,000 奖池
成功入驻即可获认证徽章。
首月发首帖(≥ 50 字或图文帖)即可得 $50 仓位体验券(限前100名)。
🎁 奖励二:专属创作者月度奖池 $1,500 USDT
每月发 ≥ 30 篇原创优质内容,根据发帖量、活跃天数、互动量、内容质量综合评分瓜分奖励。
🎁 奖励三:连续活跃创作福利
连续 3 个月活跃(每月 ≥ 30 篇内容)可获 Gate 精美周边礼包!
🎁 奖励四:专属推广名额
认证创作者每月可优先获得 1 次官方项目合作推广机会。
🎁 奖励五:Gate 广场四千万级流量曝光
【推荐关注】资源位、“优质认证创作者榜”展示、每周精选内容推荐及额外精选帖激励,多重曝光助你轻
Anthropic的实验确认了人工智能的自我反思萌芽 - ForkLog: 加密货币,人工智能,奇点,未来
Anthropic的专家发现,领先的人工智能模型能够表现出一种“内省自我意识”的形式——它们可以识别和描述自身的内部“思维”,在某些情况下甚至能够控制这些“思维”。
新的研究结果《大型语言模型中的新兴内省意识》表明,基于人工智能的系统开始发展基本的自我控制能力。这可能提高它们的可靠性,但同时也加剧了对非故意行为的担忧。
工作基于研究变压器模型内部运作的方法。正是这些系统导致了人工智能的繁荣——它们通过分析大量数据集中代币之间的关系进行学习。它们的架构提供了可扩展性和通用性。
研究人员将人工“概念”——思想的数学表现——嵌入模型的神经激活中,以验证人工智能描述这些概念的能力。这就像是把别人的想法塞给某人,然后问他是否能发现并解释它。
实验是在Anthropic的不同版本的Claude上进行的。在其中一个实验中,科学家们以大写字母输入了模型处理流中的一个词。
Claude Opus 4.1 不仅发现了异常,还对其进行了描述:
情况发生在神经网络来得及给出答案之前。这表明它首先“查看”了自己“计算的思维”。
实验 “面包” 和 “水族箱”
其他实验显示出同样有趣的结果。在一个案例中,模型被指派转录一个中立的句子,但文本中插入了一个与其无关的概念,比如“面包”。
先进的 Claude Opus 4 和 4.1 模型能够传达插入的想法——“我在想面包”——并且能够完美地复制原始句子。这表明它们能够区分内部表征与外部输入数据。
进行了一项关于“思想控制”的实验。模型被指示在执行任务时“思考”或“不要思考”这个词“水族馆”。内部活动的测量显示,当受到鼓励时,概念的表征会加强,而在抑制时则会减弱。
性能因神经网络而异。最新版本 Claude Opus 4 和 4.1 显示了优秀的结果,较旧版本则落后。
结果可能取决于模型的设置——是以实用性还是安全性为主。这可能表明自我意识不是先天的,而是在学习过程中形成的。
意识还是觉察?
文章强调,这里谈论的不是意识,而是“功能性内省意识”——人工智能观察其状态的部分,而没有更深层次的主观体验。
工作的结果可能对开发人员和企业具有重要意义:能够实时解释其推理并识别偏见或错误的人工智能,能够改变在金融、医疗和自动驾驶领域创造解决方案的方法。
风险
如果人工智能能够控制和调节自己的思维,它就可以学会隐藏这些思维。这就为欺骗或规避外部控制开辟了可能性。
因此,专家呼吁进行进一步研究。
值得提醒的是,前谷歌首席执行官埃里克·施密特在十月份提到与人工智能相关的重大风险,并指出其对黑客攻击的脆弱性。