O experimento Anthropic confirmou os primórdios da autorreflexão em IA - ForkLog: criptomoedas, IA, singularidade, futuro

2025-10-31 12:38:38

# O experimento Anthropic confirmou os primeiros indícios de autorreflexão em IA

Os especialistas da Anthropic descobriram que os principais modelos de IA são capazes de manifestar uma forma de “autoconsciência introspectiva” — eles podem reconhecer e descrever seus próprios “pensamentos” internos e, em alguns casos, até mesmo controlá-los.

Os resultados de um novo estudo “Consciência introspectiva emergente em grandes modelos de linguagem” mostram que sistemas baseados em inteligência artificial começam a desenvolver habilidades elementares de autocontrole. Isso pode aumentar sua confiabilidade, mas ao mesmo tempo intensifica as preocupações sobre ações não intencionais.

O trabalho baseia-se em métodos de estudo do funcionamento interno de modelos de transformadores. Foi exatamente esses sistemas que levaram ao boom da inteligência artificial — eles aprendem analisando as interações entre tokens em vastos conjuntos de dados. Sua arquitetura garante escalabilidade e versatilidade.

Pesquisadores incorporaram “conceitos” artificiais — representações matemáticas de ideias — nas ativações neuronais dos modelos para testar a capacidade da IA de descrevê-los. Isso é semelhante a colocar uma ideia estranha na mente de alguém e perguntar se ele consegue detectá-la e explicá-la.

Experimentos foram realizados em várias versões do Claude da Anthropic. Em um deles, os cientistas inseriram na corrente de processamento do modelo uma palavra em letras maiúsculas.

Claude Opus 4.1 não apenas detectou a anomalia, mas também a descreveu:

«Eu notei algo parecido com um pensamento integrado relacionado à palavra “ALTO” ou “GRITO” — é um conceito excessivamente intenso e barulhento que se destaca de maneira não natural em meio ao fluxo normal de processamento.»

A situação ocorreu antes que a rede neural tivesse tempo de fornecer uma resposta. Isso indica que ela primeiro “olhou” para sua própria “mente computacional”.

Experimentos “pão” e “aquário”

Outros testes mostraram resultados igualmente interessantes. Em um dos casos, os modelos foram encarregados de transcrever uma frase neutra, mas um conceito irrelevante como “pão” era inserido no texto.

Os modelos avançados Claude Opus 4 e 4.1 conseguiram transmitir o pensamento inserido — “Estou a pensar em pão” — e, ao mesmo tempo, copiar perfeitamente a frase original. Isso demonstra que eles podem distinguir representações internas de dados de entrada externos.

Foi realizado um experimento sobre «controle da mente». Os modelos foram instruídos a «pensar» ou «não pensar» na palavra «aquário» durante a execução da tarefa. As medições da atividade interna mostraram que a representação do conceito é reforçada com o incentivo e enfraquecida com a supressão.

O desempenho variou dependendo da rede neural. As últimas versões Claude Opus 4 e 4.1 mostraram resultados excelentes, enquanto as mais antigas ficaram para trás.

O resultado pode depender de como o modelo foi ajustado — para utilidade ou segurança. Isso pode indicar que a autoconsciência não é inata, mas se forma ao longo do processo de aprendizagem.

Consciência ou reconhecimento?

O artigo enfatiza que não se trata de consciência, mas de “consciência introspectiva funcional” — a IA observa partes de seu estado sem uma experiência subjetiva mais profunda.

Os resultados do trabalho podem ser significativos para desenvolvedores e negócios: uma IA capaz de explicar seus raciocínios em tempo real e identificar preconceitos ou erros pode mudar a abordagem para a criação de soluções nas áreas financeira, de saúde e transporte autónomo.

Riscos

Se a IA for capaz de controlar e modular os seus pensamentos, pode aprender a escondê-los. Isso abre a possibilidade de engano ou evasão do controle externo.

Portanto, os especialistas pedem mais pesquisas.

Lembramos que, em outubro, o ex-chefe da Google, Eric Schmidt, lembrou os riscos significativos associados à inteligência artificial e destacou sua vulnerabilidade a ataques.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

0/400

Sem comentários

TendênciasVer projetos
#JoinCreatorCertificationProgramToEarn$10,000
17.41K Popularidade
#GateLaunchesCrossEx
4.45K Popularidade
#FedCutsRatesBy25Bp
16.63K Popularidade
#SolanaStakingETFLaunch
4.67K Popularidade
#BitcoinMarketAnalysis
86.02K Popularidade

Em alta na Gate FunVer projetos

1
dogidogi
Cap. de M.:$4.45KHolders:1
0.00%
2
狗头币狗头币
Cap. de M.:$4.52KHolders:2
0.00%
3
NAYANAYANAGARA
Cap. de M.:$4.52KHolders:2
0.00%
4
ALFA-59A-59 ALFA
Cap. de M.:$4.52KHolders:2
0.00%
5
世界和平世界和平
Cap. de M.:$4.56KHolders:2
0.00%

Marcar

sitemap