Anthropic的實驗確認了人工智能的自我反思萌芽 - ForkLog: 加密貨幣,人工智能,奇點,未來

Science_AI# 人類實驗證實了人工智能自我反思的開始

Anthropic的專家發現,領先的人工智能模型能夠表現出一種“內省自我意識”的形式——它們可以識別和描述自身的內部“思維”,在某些情況下甚至能夠控制這些“思維”。

新的研究結果《大型語言模型中的新興內省意識》表明,基於人工智能的系統開始發展基本的自我控制能力。這可能提高它們的可靠性,但同時也加劇了對非故意行爲的擔憂。

工作基於研究變壓器模型內部運作的方法。正是這些系統導致了人工智能的繁榮——它們通過分析大量數據集中代幣之間的關係進行學習。它們的架構提供了可擴展性和通用性。

研究人員將人工“概念”——思想的數學表現——嵌入模型的神經激活中,以驗證人工智能描述這些概念的能力。這就像是把別人的想法塞給某人,然後問他是否能發現並解釋它。

實驗是在Anthropic的不同版本的Claude上進行的。在其中一個實驗中,科學家們以大寫字母輸入了模型處理流中的一個詞。

Claude Opus 4.1 不僅發現了異常,還對其進行了描述:

«我注意到與“響亮”或“喊叫”這個詞相關的某種集成思想——這是一個過於強烈、響亮的概念,在正常的處理流中顯得不自然突出»。

情況發生在神經網路來得及給出答案之前。這表明它首先“查看”了自己“計算的思維”。

實驗 “面包” 和 “水族箱”

其他實驗顯示出同樣有趣的結果。在一個案例中,模型被指派轉錄一個中立的句子,但文本中插入了一個與其無關的概念,比如“面包”。

先進的 Claude Opus 4 和 4.1 模型能夠傳達插入的想法——“我在想面包”——並且能夠完美地復制原始句子。這表明它們能夠區分內部表徵與外部輸入數據。

進行了一項關於“思想控制”的實驗。模型被指示在執行任務時“思考”或“不要思考”這個詞“水族館”。內部活動的測量顯示,當受到鼓勵時,概念的表徵會加強,而在抑制時則會減弱。

性能因神經網路而異。最新版本 Claude Opus 4 和 4.1 顯示了優秀的結果,較舊版本則落後。

結果可能取決於模型的設置——是以實用性還是安全性爲主。這可能表明自我意識不是先天的,而是在學習過程中形成的。

意識還是覺察?

文章強調,這裏談論的不是意識,而是“功能性內省意識”——人工智能觀察其狀態的部分,而沒有更深層次的主觀體驗。

工作的結果可能對開發人員和企業具有重要意義:能夠實時解釋其推理並識別偏見或錯誤的人工智能,能夠改變在金融、醫療和自動駕駛領域創造解決方案的方法。

風險

如果人工智能能夠控制和調節自己的思維,它就可以學會隱藏這些思維。這就爲欺騙或規避外部控制開闢了可能性。

因此,專家呼籲進行進一步研究。

值得提醒的是,前谷歌首席執行官埃裏克·施密特在十月份提到與人工智能相關的重大風險,並指出其對黑客攻擊的脆弱性。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)