Anthropic的實驗確認了人工智能的自我反思萌芽 - ForkLog: 加密貨幣，人工智能，奇點，未來

2025-10-31 12:38:38

Science_AI # 人類實驗證實了人工智能自我反思的開始

Anthropic的專家發現，領先的人工智能模型能夠表現出一種“內省自我意識”的形式——它們可以識別和描述自身的內部“思維”，在某些情況下甚至能夠控制這些“思維”。

新的研究結果《大型語言模型中的新興內省意識》表明，基於人工智能的系統開始發展基本的自我控制能力。這可能提高它們的可靠性，但同時也加劇了對非故意行爲的擔憂。

工作基於研究變壓器模型內部運作的方法。正是這些系統導致了人工智能的繁榮——它們通過分析大量數據集中代幣之間的關係進行學習。它們的架構提供了可擴展性和通用性。

研究人員將人工“概念”——思想的數學表現——嵌入模型的神經激活中，以驗證人工智能描述這些概念的能力。這就像是把別人的想法塞給某人，然後問他是否能發現並解釋它。

實驗是在Anthropic的不同版本的Claude上進行的。在其中一個實驗中，科學家們以大寫字母輸入了模型處理流中的一個詞。

Claude Opus 4.1 不僅發現了異常，還對其進行了描述：

«我注意到與“響亮”或“喊叫”這個詞相關的某種集成思想——這是一個過於強烈、響亮的概念，在正常的處理流中顯得不自然突出»。

情況發生在神經網路來得及給出答案之前。這表明它首先“查看”了自己“計算的思維”。

實驗 “面包” 和 “水族箱”

其他實驗顯示出同樣有趣的結果。在一個案例中，模型被指派轉錄一個中立的句子，但文本中插入了一個與其無關的概念，比如“面包”。

先進的 Claude Opus 4 和 4.1 模型能夠傳達插入的想法——“我在想面包”——並且能夠完美地復制原始句子。這表明它們能夠區分內部表徵與外部輸入數據。

進行了一項關於“思想控制”的實驗。模型被指示在執行任務時“思考”或“不要思考”這個詞“水族館”。內部活動的測量顯示，當受到鼓勵時，概念的表徵會加強，而在抑制時則會減弱。

性能因神經網路而異。最新版本 Claude Opus 4 和 4.1 顯示了優秀的結果，較舊版本則落後。

結果可能取決於模型的設置——是以實用性還是安全性爲主。這可能表明自我意識不是先天的，而是在學習過程中形成的。

文章強調，這裏談論的不是意識，而是“功能性內省意識”——人工智能觀察其狀態的部分，而沒有更深層次的主觀體驗。

工作的結果可能對開發人員和企業具有重要意義：能夠實時解釋其推理並識別偏見或錯誤的人工智能，能夠改變在金融、醫療和自動駕駛領域創造解決方案的方法。

如果人工智能能夠控制和調節自己的思維，它就可以學會隱藏這些思維。這就爲欺騙或規避外部控制開闢了可能性。

因此，專家呼籲進行進一步研究。

值得提醒的是，前谷歌首席執行官埃裏克·施密特在十月份提到與人工智能相關的重大風險，並指出其對黑客攻擊的脆弱性。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

留言

0/400

暫無留言