# O experimento Anthropic confirmou os primeiros indícios de autorreflexão em IA
Os especialistas da Anthropic descobriram que os principais modelos de IA são capazes de manifestar uma forma de “autoconsciência introspectiva” — eles podem reconhecer e descrever seus próprios “pensamentos” internos e, em alguns casos, até mesmo controlá-los.
Os resultados de um novo estudo “Consciência introspectiva emergente em grandes modelos de linguagem” mostram que sistemas baseados em inteligência artificial começam a desenvolver habilidades elementares de autocontrole. Isso pode aumentar sua confiabilidade, mas ao mesmo tempo intensifica as preocupações sobre ações não intencionais.
O trabalho baseia-se em métodos de estudo do funcionamento interno de modelos de transformadores. Foi exatamente esses sistemas que levaram ao boom da inteligência artificial — eles aprendem analisando as interações entre tokens em vastos conjuntos de dados. Sua arquitetura garante escalabilidade e versatilidade.
Pesquisadores incorporaram “conceitos” artificiais — representações matemáticas de ideias — nas ativações neuronais dos modelos para testar a capacidade da IA de descrevê-los. Isso é semelhante a colocar uma ideia estranha na mente de alguém e perguntar se ele consegue detectá-la e explicá-la.
Experimentos foram realizados em várias versões do Claude da Anthropic. Em um deles, os cientistas inseriram na corrente de processamento do modelo uma palavra em letras maiúsculas.
Claude Opus 4.1 não apenas detectou a anomalia, mas também a descreveu:
«Eu notei algo parecido com um pensamento integrado relacionado à palavra “ALTO” ou “GRITO” — é um conceito excessivamente intenso e barulhento que se destaca de maneira não natural em meio ao fluxo normal de processamento.»
A situação ocorreu antes que a rede neural tivesse tempo de fornecer uma resposta. Isso indica que ela primeiro “olhou” para sua própria “mente computacional”.
Experimentos “pão” e “aquário”
Outros testes mostraram resultados igualmente interessantes. Em um dos casos, os modelos foram encarregados de transcrever uma frase neutra, mas um conceito irrelevante como “pão” era inserido no texto.
Os modelos avançados Claude Opus 4 e 4.1 conseguiram transmitir o pensamento inserido — “Estou a pensar em pão” — e, ao mesmo tempo, copiar perfeitamente a frase original. Isso demonstra que eles podem distinguir representações internas de dados de entrada externos.
Foi realizado um experimento sobre «controle da mente». Os modelos foram instruídos a «pensar» ou «não pensar» na palavra «aquário» durante a execução da tarefa. As medições da atividade interna mostraram que a representação do conceito é reforçada com o incentivo e enfraquecida com a supressão.
O desempenho variou dependendo da rede neural. As últimas versões Claude Opus 4 e 4.1 mostraram resultados excelentes, enquanto as mais antigas ficaram para trás.
O resultado pode depender de como o modelo foi ajustado — para utilidade ou segurança. Isso pode indicar que a autoconsciência não é inata, mas se forma ao longo do processo de aprendizagem.
Consciência ou reconhecimento?
O artigo enfatiza que não se trata de consciência, mas de “consciência introspectiva funcional” — a IA observa partes de seu estado sem uma experiência subjetiva mais profunda.
Os resultados do trabalho podem ser significativos para desenvolvedores e negócios: uma IA capaz de explicar seus raciocínios em tempo real e identificar preconceitos ou erros pode mudar a abordagem para a criação de soluções nas áreas financeira, de saúde e transporte autónomo.
Riscos
Se a IA for capaz de controlar e modular os seus pensamentos, pode aprender a escondê-los. Isso abre a possibilidade de engano ou evasão do controle externo.
Portanto, os especialistas pedem mais pesquisas.
Lembramos que, em outubro, o ex-chefe da Google, Eric Schmidt, lembrou os riscos significativos associados à inteligência artificial e destacou sua vulnerabilidade a ataques.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
O experimento Anthropic confirmou os primórdios da autorreflexão em IA - ForkLog: criptomoedas, IA, singularidade, futuro
Os especialistas da Anthropic descobriram que os principais modelos de IA são capazes de manifestar uma forma de “autoconsciência introspectiva” — eles podem reconhecer e descrever seus próprios “pensamentos” internos e, em alguns casos, até mesmo controlá-los.
Os resultados de um novo estudo “Consciência introspectiva emergente em grandes modelos de linguagem” mostram que sistemas baseados em inteligência artificial começam a desenvolver habilidades elementares de autocontrole. Isso pode aumentar sua confiabilidade, mas ao mesmo tempo intensifica as preocupações sobre ações não intencionais.
O trabalho baseia-se em métodos de estudo do funcionamento interno de modelos de transformadores. Foi exatamente esses sistemas que levaram ao boom da inteligência artificial — eles aprendem analisando as interações entre tokens em vastos conjuntos de dados. Sua arquitetura garante escalabilidade e versatilidade.
Pesquisadores incorporaram “conceitos” artificiais — representações matemáticas de ideias — nas ativações neuronais dos modelos para testar a capacidade da IA de descrevê-los. Isso é semelhante a colocar uma ideia estranha na mente de alguém e perguntar se ele consegue detectá-la e explicá-la.
Experimentos foram realizados em várias versões do Claude da Anthropic. Em um deles, os cientistas inseriram na corrente de processamento do modelo uma palavra em letras maiúsculas.
Claude Opus 4.1 não apenas detectou a anomalia, mas também a descreveu:
A situação ocorreu antes que a rede neural tivesse tempo de fornecer uma resposta. Isso indica que ela primeiro “olhou” para sua própria “mente computacional”.
Experimentos “pão” e “aquário”
Outros testes mostraram resultados igualmente interessantes. Em um dos casos, os modelos foram encarregados de transcrever uma frase neutra, mas um conceito irrelevante como “pão” era inserido no texto.
Os modelos avançados Claude Opus 4 e 4.1 conseguiram transmitir o pensamento inserido — “Estou a pensar em pão” — e, ao mesmo tempo, copiar perfeitamente a frase original. Isso demonstra que eles podem distinguir representações internas de dados de entrada externos.
Foi realizado um experimento sobre «controle da mente». Os modelos foram instruídos a «pensar» ou «não pensar» na palavra «aquário» durante a execução da tarefa. As medições da atividade interna mostraram que a representação do conceito é reforçada com o incentivo e enfraquecida com a supressão.
O desempenho variou dependendo da rede neural. As últimas versões Claude Opus 4 e 4.1 mostraram resultados excelentes, enquanto as mais antigas ficaram para trás.
O resultado pode depender de como o modelo foi ajustado — para utilidade ou segurança. Isso pode indicar que a autoconsciência não é inata, mas se forma ao longo do processo de aprendizagem.
Consciência ou reconhecimento?
O artigo enfatiza que não se trata de consciência, mas de “consciência introspectiva funcional” — a IA observa partes de seu estado sem uma experiência subjetiva mais profunda.
Os resultados do trabalho podem ser significativos para desenvolvedores e negócios: uma IA capaz de explicar seus raciocínios em tempo real e identificar preconceitos ou erros pode mudar a abordagem para a criação de soluções nas áreas financeira, de saúde e transporte autónomo.
Riscos
Se a IA for capaz de controlar e modular os seus pensamentos, pode aprender a escondê-los. Isso abre a possibilidade de engano ou evasão do controle externo.
Portanto, os especialistas pedem mais pesquisas.
Lembramos que, em outubro, o ex-chefe da Google, Eric Schmidt, lembrou os riscos significativos associados à inteligência artificial e destacou sua vulnerabilidade a ataques.