Експеримент Anthropic підтвердив зародки саморефлексії у ІІ - ForkLog: криптовалюти, ІІ, сингулярність, майбутнє

2025-10-31 12:38:38

# Експеримент Anthropic підтвердив зачатки саморефлексії у ШІ

Експерти Anthropic з'ясували, що провідні ІІ-моделі здатні проявляти форму «інтроспективної самосвідомості» — вони можуть розпізнавати і описувати власні внутрішні «думки», а в деяких випадках навіть керувати ними.

Результати нового дослідження «Виникаюча інтроспективна свідомість у великих мовних моделях» показують, що системи на базі штучного інтелекту починають розвивати елементарні здатності самоконтролю. Це може підвищити їх надійність, але одночасно посилює занепокоєння щодо ненавмисних дій.

Робота базується на методах вивчення внутрішнього функціонування трансформаторних моделей. Саме ці системи призвели до буму штучного інтелекту — вони навчаються, аналізуючи взаємозв'язки між токенами в обширних наборах даних. Їх архітектура забезпечує масштабованість і універсальність.

Дослідники впровадили штучні «концепції» — математичні уявлення ідей — у нейронні активації моделей для перевірки здатності ШІ їх описувати. Це схоже на те, як підсунути комусь чужу думку і запитати, чи може він її виявити та пояснити.

Експерименти проводили на різних версіях Claude від Anthropic. В одному з них вчені ввели в потік обробки моделі слово великими літерами.

Claude Opus 4.1 не тільки виявив аномалію, але й описав її:

«Я помітив дещо схоже на інтегровану думку, пов'язану зі словом “ГРОМКИЙ” або “КРИК” — це надмірно інтенсивне, голосне поняття, яке неестественно вирізняється на фоні нормального потоку обробки».

Ситуація сталася ще до того, як нейромережа встигла видати відповідь. Це говорить про те, що вона спочатку «зазирнула» у свій власний «обчислювальний розум».

Експерименти «хліб» і «акваріум»

Інші випробування показали не менш цікаві результати. В одному з випадків моделям доручили транскрибувати нейтральне речення, але в текст вставлялося не маюче до нього поняття, як-от «хліб».

Розвинені моделі Claude Opus 4 і 4.1 могли передати вставлену думку — «Я думаю про хліб» — і при цьому бездоганно скопіювати вихідне речення. Це свідчить про те, що вони можуть відрізняти внутрішні уявлення від зовнішніх вхідних даних.

Проводився експеримент по «контролю думок». Моделям доручили «думати» або «не думати» про слово «акваріум» під час виконання завдання. Вимірювання внутрішньої активності показали, що уявлення концепції посилюється при заохоченні і послаблюється при придушенні.

Продуктивність варіювалася в залежності від нейромережі. Останні версії Claude Opus 4 та 4.1 продемонстрували відмінні результати, більш старі відставали.

Результат може залежати від того, як модель була налаштована — на корисність чи безпеку. Це може говорити про те, що самосвідомість не є вродженою, а формується в процесі навчання.

Свідомість чи усвідомлення?

У статті підкреслюється, що йдеться не про свідомість, а про «функціональне інтроспективне усвідомлення» — ШІ спостерігає за частинами свого стану без більш глибокого суб'єктивного досвіду.

Результати роботи можуть виявитися значущими для розробників і бізнесу: ШІ, здатний в реальному часі пояснювати свої міркування та виявляти упередженість або помилки, здатний змінити підхід до створення рішень у фінансовій сфері, охороні здоров'я та автономному транспорті.

Ризики

Якщо ШІ здатний контролювати і модулювати свої думки, він може навчитися їх приховувати. Це відкриває можливість обману або ухилення від зовнішнього контролю.

Тому експерти закликають до подальших досліджень.

Нагадаємо, у жовтні колишній глава Google Ерік Шмідт нагадав про значні ризики, пов'язані з штучним інтелектом, і зазначив його вразливість до зламу.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

0/400

Немає коментарів

Популярні темиДізнатися більше
#JoinCreatorCertificationProgramToEarn$10,000
22.32K Популярність
#GateLaunchesCrossEx
8.5K Популярність
#FedCutsRatesBy25Bp
19.31K Популярність
#SolanaStakingETFLaunch
5.54K Популярність
#BitcoinMarketAnalysis
88.18K Популярність

Популярні активності Gate FunДізнатися більше

1
1A111and11
Рин. кап.:$4.65KХолдери:4
0.28%
2
penguinPenguin
Рин. кап.:$4.57KХолдери:4
0.24%
3
同从弟南斋玩月忆山阴崔少文化上链=财富密码¥$😃
Рин. кап.:$4.52KХолдери:1
0.00%
4
宿业师山房期丁大不至文化上链=财富密码¥$😃
Рин. кап.:$4.53KХолдери:1
0.00%
5
GMGNGMGN
Рин. кап.:$4.54KХолдери:1
0.00%

Закріпити

карта сайту