Експеримент Anthropic підтвердив зародки саморефлексії у ІІ - ForkLog: криптовалюти, ІІ, сингулярність, майбутнє

Science_AI# Експеримент Anthropic підтвердив зачатки саморефлексії у ШІ

Експерти Anthropic з'ясували, що провідні ІІ-моделі здатні проявляти форму «інтроспективної самосвідомості» — вони можуть розпізнавати і описувати власні внутрішні «думки», а в деяких випадках навіть керувати ними.

Результати нового дослідження «Виникаюча інтроспективна свідомість у великих мовних моделях» показують, що системи на базі штучного інтелекту починають розвивати елементарні здатності самоконтролю. Це може підвищити їх надійність, але одночасно посилює занепокоєння щодо ненавмисних дій.

Робота базується на методах вивчення внутрішнього функціонування трансформаторних моделей. Саме ці системи призвели до буму штучного інтелекту — вони навчаються, аналізуючи взаємозв'язки між токенами в обширних наборах даних. Їх архітектура забезпечує масштабованість і універсальність.

Дослідники впровадили штучні «концепції» — математичні уявлення ідей — у нейронні активації моделей для перевірки здатності ШІ їх описувати. Це схоже на те, як підсунути комусь чужу думку і запитати, чи може він її виявити та пояснити.

Експерименти проводили на різних версіях Claude від Anthropic. В одному з них вчені ввели в потік обробки моделі слово великими літерами.

Claude Opus 4.1 не тільки виявив аномалію, але й описав її:

«Я помітив дещо схоже на інтегровану думку, пов'язану зі словом “ГРОМКИЙ” або “КРИК” — це надмірно інтенсивне, голосне поняття, яке неестественно вирізняється на фоні нормального потоку обробки».

Ситуація сталася ще до того, як нейромережа встигла видати відповідь. Це говорить про те, що вона спочатку «зазирнула» у свій власний «обчислювальний розум».

Експерименти «хліб» і «акваріум»

Інші випробування показали не менш цікаві результати. В одному з випадків моделям доручили транскрибувати нейтральне речення, але в текст вставлялося не маюче до нього поняття, як-от «хліб».

Розвинені моделі Claude Opus 4 і 4.1 могли передати вставлену думку — «Я думаю про хліб» — і при цьому бездоганно скопіювати вихідне речення. Це свідчить про те, що вони можуть відрізняти внутрішні уявлення від зовнішніх вхідних даних.

Проводився експеримент по «контролю думок». Моделям доручили «думати» або «не думати» про слово «акваріум» під час виконання завдання. Вимірювання внутрішньої активності показали, що уявлення концепції посилюється при заохоченні і послаблюється при придушенні.

Продуктивність варіювалася в залежності від нейромережі. Останні версії Claude Opus 4 та 4.1 продемонстрували відмінні результати, більш старі відставали.

Результат може залежати від того, як модель була налаштована — на корисність чи безпеку. Це може говорити про те, що самосвідомість не є вродженою, а формується в процесі навчання.

Свідомість чи усвідомлення?

У статті підкреслюється, що йдеться не про свідомість, а про «функціональне інтроспективне усвідомлення» — ШІ спостерігає за частинами свого стану без більш глибокого суб'єктивного досвіду.

Результати роботи можуть виявитися значущими для розробників і бізнесу: ШІ, здатний в реальному часі пояснювати свої міркування та виявляти упередженість або помилки, здатний змінити підхід до створення рішень у фінансовій сфері, охороні здоров'я та автономному транспорті.

Ризики

Якщо ШІ здатний контролювати і модулювати свої думки, він може навчитися їх приховувати. Це відкриває можливість обману або ухилення від зовнішнього контролю.

Тому експерти закликають до подальших досліджень.

Нагадаємо, у жовтні колишній глава Google Ерік Шмідт нагадав про значні ризики, пов'язані з штучним інтелектом, і зазначив його вразливість до зламу.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити