Thí nghiệm Anthropic đã xác nhận những dấu hiệu của sự tự phản ánh ở trí tuệ nhân tạo - ForkLog: tiền điện tử, trí tuệ nhân tạo, điểm kỳ dị, tương lai

2025-10-31 12:38:38

# Thí nghiệm Anthropic xác nhận những dấu hiệu đầu tiên của sự tự phản ánh ở AI

Các chuyên gia Anthropic đã phát hiện rằng các mô hình AI hàng đầu có khả năng thể hiện một dạng “tự nhận thức nội tâm” - chúng có thể nhận diện và mô tả “suy nghĩ” bên trong của chính mình, và trong một số trường hợp, thậm chí có thể điều khiển chúng.

Kết quả của nghiên cứu mới “Ý thức tự phản ánh nổi lên trong các mô hình ngôn ngữ lớn” cho thấy các hệ thống dựa trên trí tuệ nhân tạo bắt đầu phát triển những khả năng tự kiểm soát cơ bản. Điều này có thể nâng cao độ tin cậy của chúng, nhưng đồng thời cũng làm tăng mối lo ngại về các hành động không mong muốn.

Công việc dựa trên các phương pháp nghiên cứu chức năng bên trong của các mô hình biến áp. Chính những hệ thống này đã dẫn đến sự bùng nổ của trí tuệ nhân tạo — chúng học hỏi bằng cách phân tích mối quan hệ giữa các token trong các tập dữ liệu rộng lớn. Kiến trúc của chúng đảm bảo khả năng mở rộng và tính linh hoạt.

Các nhà nghiên cứu đã tích hợp các “khái niệm” nhân tạo - các biểu diễn toán học của ý tưởng - vào các hoạt động thần kinh của các mô hình để kiểm tra khả năng của AI trong việc mô tả chúng. Điều này giống như việc đưa cho ai đó một ý nghĩ của người khác và hỏi xem liệu họ có thể phát hiện và giải thích nó hay không.

Các thí nghiệm đã được thực hiện trên các phiên bản khác nhau của Claude từ Anthropic. Trong một thí nghiệm, các nhà khoa học đã đưa vào luồng xử lý của mô hình một từ viết hoa.

Claude Opus 4.1 không chỉ phát hiện ra sự bất thường mà còn mô tả nó:

«Tôi nhận thấy điều gì đó tương tự như một ý tưởng tích hợp liên quan đến từ “ẦM ĩ” hoặc “KÍCH” — đây là một khái niệm quá mức, ồn ào, nổi bật không tự nhiên trên nền của dòng xử lý bình thường.»

Tình huống xảy ra trước khi mạng nơ-ron kịp đưa ra câu trả lời. Điều này cho thấy nó đã “nhìn” vào “tâm trí tính toán” của chính nó trước.

Thí nghiệm “bánh mì” và “bể cá”

Các thử nghiệm khác đã cho thấy những kết quả không kém phần thú vị. Trong một trường hợp, các mô hình được giao nhiệm vụ phiên âm một câu trung lập, nhưng trong văn bản lại chèn vào một khái niệm không liên quan như “bánh mì”.

Các mô hình nâng cao Claude Opus 4 và 4.1 có thể truyền đạt ý nghĩ được chèn vào - “Tôi đang nghĩ về bánh mì” - và đồng thời sao chép câu gốc một cách hoàn hảo. Điều này chứng tỏ rằng chúng có thể phân biệt các đại diện nội bộ với dữ liệu đầu vào bên ngoài.

Một thí nghiệm về “kiểm soát tư tưởng” đã được tiến hành. Các mô hình được giao nhiệm vụ “nghĩ” hoặc “không nghĩ” về từ “bể cá” trong quá trình thực hiện nhiệm vụ. Các phép đo hoạt động nội tại cho thấy rằng việc hình dung khái niệm được tăng cường khi có khuyến khích và suy yếu khi bị đàn áp.

Hiệu suất thay đổi tùy thuộc vào mạng nơ-ron. Các phiên bản mới nhất Claude Opus 4 và 4.1 đã cho kết quả xuất sắc, trong khi các phiên bản cũ hơn thì kém hơn.

Kết quả có thể phụ thuộc vào cách mà mô hình được cấu hình - cho tính hữu ích hoặc an toàn. Điều này có thể cho thấy rằng sự tự nhận thức không phải là bẩm sinh, mà hình thành trong quá trình học tập.

Ý thức hay nhận thức?

Bài viết nhấn mạnh rằng đây không phải là về ý thức, mà là “nhận thức nội tâm chức năng” - AI quan sát các phần của trạng thái của nó mà không có kinh nghiệm chủ quan sâu sắc hơn.

Kết quả công việc có thể có ý nghĩa quan trọng đối với các nhà phát triển và doanh nghiệp: AI, có khả năng giải thích lý luận của mình và phát hiện thiên lệch hoặc sai sót trong thời gian thực, có khả năng thay đổi cách tiếp cận trong việc tạo ra các giải pháp trong lĩnh vực tài chính, y tế và giao thông tự động.

Rủi ro

Nếu AI có khả năng kiểm soát và điều chỉnh suy nghĩ của mình, nó có thể học cách che giấu chúng. Điều này mở ra khả năng lừa dối hoặc tránh né sự kiểm soát bên ngoài.

Vì vậy, các chuyên gia kêu gọi cần nghiên cứu thêm.

Nhắc lại, vào tháng Mười, cựu giám đốc Google Eric Schmidt đã nhấn mạnh những rủi ro đáng kể liên quan đến trí tuệ nhân tạo và chỉ ra sự dễ bị tổn thương của nó trước các cuộc tấn công.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

0/400

Không có bình luận

Chủ đề thịnh hànhXem thêm
#JoinCreatorCertificationProgramToEarn$10,000
25.69K Phổ biến
#GateLaunchesCrossEx
11.37K Phổ biến
#FedCutsRatesBy25Bp
22.65K Phổ biến
#SolanaStakingETFLaunch
7.35K Phổ biến
#BitcoinMarketAnalysis
89.59K Phổ biến

Gate Fun hotXem thêm

1
TITYTITY
Vốn hóa:$4.54KNgười nắm giữ:2
0.00%
2
感恩之心窗外风渐凉，碗里汤正暖。
Vốn hóa:$4.53KNgười nắm giữ:2
0.00%
3
ThanksgivingA Day of Gratitude
Vốn hóa:$4.53KNgười nắm giữ:2
0.00%
4
整体木瓶整体木瓶
Vốn hóa:$4.57KNgười nắm giữ:4
0.35%
5
G3G3
Vốn hóa:$4.52KNgười nắm giữ:2
0.00%

Ghim

sơ đồ trang web