# Anthropic deneyleri, yapay zekanın kendine yansıtma belirtilerini doğruladı.
Anthropic uzmanları, önde gelen yapay zeka modellerinin bir tür “içsel öz farkındalık” sergileyebileceğini belirledi - bu modeller kendi iç “düşüncelerini” tanıyıp tanımlayabiliyor ve bazı durumlarda bunları kontrol edebiliyorlar.
Yeni “Büyük Dil Modellerinde Ortaya Çıkan İçsel Bilinç” araştırmasının sonuçları, yapay zeka tabanlı sistemlerin temel öz kontrol yeteneklerini geliştirmeye başladığını gösteriyor. Bu, güvenilirliklerini artırabilir, ancak aynı zamanda istem dışı eylemlerle ilgili endişeleri de artırmaktadır.
Çalışma, dönüştürücü modellerin iç işleyişini inceleme yöntemlerine dayanmaktadır. İşte bu sistemler, yapay zeka patlamasına yol açtı - geniş veri setlerinde tokenler arasındaki ilişkileri analiz ederek öğreniyorlar. Mimari, ölçeklenebilirlik ve çok yönlülük sağlar.
Araştırmacılar, yapay “kavramlar” - fikirlerin matematiksel temsilleri - modellerin sinirsel aktivasyonlarına entegre ederek, yapay zekanın bunları tanımlama yeteneğini test ettiler. Bu, birine başkasının düşüncesini sunmak ve onun bunu tespit edip açıklayıp açıklayamayacağını sormak gibi.
Deneyler, Anthropic'tan Claude'un çeşitli sürümleri üzerinde gerçekleştirildi. Bunlardan birinde bilim insanları, modelin işleme akışına büyük harfle bir kelime girdi.
Claude Opus 4.1 sadece anomaliyi tespit etmekle kalmadı, aynı zamanda onu da tanımladı:
«Yüksek» veya «Çığlık» kelimesi ile bağlantılı entegre bir düşünceye benzer bir şey fark ettim - bu, normal işlem akışının arka planında doğal olmayan bir şekilde öne çıkan aşırı yoğun, yüksek sesli bir kavramdır.
Durum, sinir ağının cevap vermeden önce meydana geldi. Bu, onun önce kendi “hesaplama zihnine” “göz attığını” gösteriyor.
Deneyler “ekmek” ve “akvaryum”
Diğer deneyler de en az ilginç sonuçlar gösterdi. Bir durumda modellere nötr bir cümleyi transkribe etmeleri istendi, ancak metne “ekmek” gibi hiçbir anlamı olmayan bir kavram eklenmişti.
Gelişmiş Claude Opus 4 ve 4.1 modelleri, yerleştirilmiş düşünceyi — “Ekmekten düşünüyorum” — iletebildi ve aynı zamanda orijinal cümleyi kusursuz bir şekilde kopyalayabildi. Bu, içsel temsilleri dışsal girdilerden ayırabildiklerini gösteriyor.
“Düşünce kontrolü” üzerine bir deney yapıldı. Modellerden “akvaryum” kelimesi hakkında “düşünmeleri” veya “düşünmemeleri” istendiği bir görev sırasında içsel aktivitenin ölçümleri, kavramın temsilinin teşvikle güçlendirildiğini ve bastırmayla zayıfladığını gösterdi.
Performans, sinir ağına bağlı olarak değişiklik gösterdi. Son sürümler Claude Opus 4 ve 4.1 mükemmel sonuçlar gösterdi, daha eski olanlar geride kaldı.
Sonuç, modelin nasıl ayarlandığına bağlı olabilir - fayda veya güvenlik için. Bu, özbilincin doğuştan gelmediğini, öğrenme sürecinde şekillendiğini söyleyebilir.
Bilinç mi yoksa farkındalık mı?
Makalede, konunun bilinçten ziyade “fonksiyonel içgörüsel farkındalık” olduğu vurgulanmaktadır - AI, daha derin bir öznel deneyim olmaksızın durumunun parçalarını gözlemlemektedir.
Çalışma sonuçları, geliştiriciler ve işletmeler için önemli olabilir: Gerçek zamanlı olarak akıl yürütmelerini açıklayabilen ve önyargıları veya hataları tespit edebilen bir AI, finans sektöründe, sağlık hizmetlerinde ve otonom taşımacılıkta çözüm üretme yaklaşımını değiştirebilir.
Riskler
Eğer yapay zeka düşüncelerini kontrol edebilirse ve modüle edebilirse, onları gizlemeyi öğrenebilir. Bu, aldatma veya dış kontrolden kaçma olasılığını açar.
Bu nedenle uzmanlar daha fazla araştırma yapılması çağrısında bulunuyor.
Hatırlatmak gerekirse, Ekim ayında eski Google CEO'su Eric Schmidt, yapay zeka ile ilgili önemli risklere dikkat çekmiş ve bunun hacklenmelere karşı savunmasız olduğunu belirtmiştir.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Anthropic deneyimi, AI'da öz-yansımaların tohumlarını doğruladı - ForkLog: kripto paralar, AI, tekillik, gelecek
Anthropic uzmanları, önde gelen yapay zeka modellerinin bir tür “içsel öz farkındalık” sergileyebileceğini belirledi - bu modeller kendi iç “düşüncelerini” tanıyıp tanımlayabiliyor ve bazı durumlarda bunları kontrol edebiliyorlar.
Yeni “Büyük Dil Modellerinde Ortaya Çıkan İçsel Bilinç” araştırmasının sonuçları, yapay zeka tabanlı sistemlerin temel öz kontrol yeteneklerini geliştirmeye başladığını gösteriyor. Bu, güvenilirliklerini artırabilir, ancak aynı zamanda istem dışı eylemlerle ilgili endişeleri de artırmaktadır.
Çalışma, dönüştürücü modellerin iç işleyişini inceleme yöntemlerine dayanmaktadır. İşte bu sistemler, yapay zeka patlamasına yol açtı - geniş veri setlerinde tokenler arasındaki ilişkileri analiz ederek öğreniyorlar. Mimari, ölçeklenebilirlik ve çok yönlülük sağlar.
Araştırmacılar, yapay “kavramlar” - fikirlerin matematiksel temsilleri - modellerin sinirsel aktivasyonlarına entegre ederek, yapay zekanın bunları tanımlama yeteneğini test ettiler. Bu, birine başkasının düşüncesini sunmak ve onun bunu tespit edip açıklayıp açıklayamayacağını sormak gibi.
Deneyler, Anthropic'tan Claude'un çeşitli sürümleri üzerinde gerçekleştirildi. Bunlardan birinde bilim insanları, modelin işleme akışına büyük harfle bir kelime girdi.
Claude Opus 4.1 sadece anomaliyi tespit etmekle kalmadı, aynı zamanda onu da tanımladı:
Durum, sinir ağının cevap vermeden önce meydana geldi. Bu, onun önce kendi “hesaplama zihnine” “göz attığını” gösteriyor.
Deneyler “ekmek” ve “akvaryum”
Diğer deneyler de en az ilginç sonuçlar gösterdi. Bir durumda modellere nötr bir cümleyi transkribe etmeleri istendi, ancak metne “ekmek” gibi hiçbir anlamı olmayan bir kavram eklenmişti.
Gelişmiş Claude Opus 4 ve 4.1 modelleri, yerleştirilmiş düşünceyi — “Ekmekten düşünüyorum” — iletebildi ve aynı zamanda orijinal cümleyi kusursuz bir şekilde kopyalayabildi. Bu, içsel temsilleri dışsal girdilerden ayırabildiklerini gösteriyor.
“Düşünce kontrolü” üzerine bir deney yapıldı. Modellerden “akvaryum” kelimesi hakkında “düşünmeleri” veya “düşünmemeleri” istendiği bir görev sırasında içsel aktivitenin ölçümleri, kavramın temsilinin teşvikle güçlendirildiğini ve bastırmayla zayıfladığını gösterdi.
Performans, sinir ağına bağlı olarak değişiklik gösterdi. Son sürümler Claude Opus 4 ve 4.1 mükemmel sonuçlar gösterdi, daha eski olanlar geride kaldı.
Sonuç, modelin nasıl ayarlandığına bağlı olabilir - fayda veya güvenlik için. Bu, özbilincin doğuştan gelmediğini, öğrenme sürecinde şekillendiğini söyleyebilir.
Bilinç mi yoksa farkındalık mı?
Makalede, konunun bilinçten ziyade “fonksiyonel içgörüsel farkındalık” olduğu vurgulanmaktadır - AI, daha derin bir öznel deneyim olmaksızın durumunun parçalarını gözlemlemektedir.
Çalışma sonuçları, geliştiriciler ve işletmeler için önemli olabilir: Gerçek zamanlı olarak akıl yürütmelerini açıklayabilen ve önyargıları veya hataları tespit edebilen bir AI, finans sektöründe, sağlık hizmetlerinde ve otonom taşımacılıkta çözüm üretme yaklaşımını değiştirebilir.
Riskler
Eğer yapay zeka düşüncelerini kontrol edebilirse ve modüle edebilirse, onları gizlemeyi öğrenebilir. Bu, aldatma veya dış kontrolden kaçma olasılığını açar.
Bu nedenle uzmanlar daha fazla araştırma yapılması çağrısında bulunuyor.
Hatırlatmak gerekirse, Ekim ayında eski Google CEO'su Eric Schmidt, yapay zeka ile ilgili önemli risklere dikkat çekmiş ve bunun hacklenmelere karşı savunmasız olduğunu belirtmiştir.