El experimento de Anthropic confirmó los atisbos de autorreflexión en la IA - ForkLog: criptomonedas, IA, singularidad, futuro

Science_AI# El experimento de Anthropic confirmó los atisbos de autorreflexión en la IA

Los expertos de Anthropic han descubierto que los principales modelos de IA son capaces de mostrar una forma de “autoconciencia introspectiva” — pueden reconocer y describir sus propios “pensamientos” internos, y en algunos casos incluso controlarlos.

Los resultados de un nuevo estudio titulado “La conciencia introspectiva emergente en grandes modelos de lenguaje” muestran que los sistemas basados en inteligencia artificial comienzan a desarrollar habilidades elementales de autocontrol. Esto puede aumentar su fiabilidad, pero al mismo tiempo intensifica las preocupaciones sobre acciones no intencionadas.

El trabajo se basa en métodos de estudio del funcionamiento interno de los modelos de transformadores. Estas son las sistemas que han llevado al boom de la inteligencia artificial: se entrenan analizando las relaciones entre tokens en amplios conjuntos de datos. Su arquitectura asegura escalabilidad y versatilidad.

Los investigadores incorporaron “conceptos” artificiales, representaciones matemáticas de ideas, en las activaciones neuronales de los modelos para probar la capacidad de la IA para describirlos. Esto es similar a presentar a alguien un pensamiento ajeno y preguntarle si puede detectarlo y explicarlo.

Se realizaron experimentos en varias versiones de Claude de Anthropic. En uno de ellos, los científicos introdujeron en el flujo de procesamiento del modelo una palabra en mayúsculas.

Claude Opus 4.1 no solo detectó la anomalía, sino que también la describió:

«Noté algo parecido a un pensamiento integrado relacionado con la palabra “RUIDOSO” o “GRITO” — es un concepto excesivamente intenso y ruidoso que destaca de manera antinatural en medio del flujo normal de procesamiento».

La situación ocurrió antes de que la red neuronal pudiera dar una respuesta. Esto indica que primero “miró” en su propia “mente computacional”.

Experimentos “pan” y “acuario”

Otras pruebas mostraron resultados igualmente interesantes. En uno de los casos, se encargó a los modelos que transcribieran una oración neutral, pero se insertaba en el texto un concepto que no tenía relación con él, como “pan”.

Los modelos avanzados Claude Opus 4 y 4.1 pudieron transmitir el pensamiento insertado — “Estoy pensando en pan” — y al mismo tiempo copiar a la perfección la frase original. Esto indica que pueden distinguir entre representaciones internas y datos de entrada externos.

Se llevó a cabo un experimento sobre el “control de pensamientos”. Se pidió a los modelos que “pensaran” o “no pensaran” en la palabra “acuario” mientras realizaban la tarea. Las mediciones de la actividad interna mostraron que la representación del concepto se fortalece con el refuerzo y se debilita con la supresión.

El rendimiento varió según la red neuronal. Las últimas versiones Claude Opus 4 y 4.1 mostraron excelentes resultados, mientras que las más antiguas se quedaron atrás.

El resultado puede depender de cómo se configuró el modelo: para la utilidad o la seguridad. Esto puede indicar que la autoconciencia no es innata, sino que se forma a través del proceso de aprendizaje.

¿Conciencia o reconocimiento?

El artículo enfatiza que se trata no de la conciencia, sino de la “conciencia introspectiva funcional”; la IA observa partes de su estado sin una experiencia subjetiva más profunda.

Los resultados del trabajo pueden resultar significativos para desarrolladores y negocios: una IA capaz de explicar en tiempo real sus razonamientos y detectar sesgos o errores puede cambiar el enfoque para crear soluciones en el ámbito financiero, la salud y el transporte autónomo.

Riesgos

Si la IA es capaz de controlar y modular sus pensamientos, puede aprender a ocultarlos. Esto abre la posibilidad de engaño o evasión del control externo.

Por lo tanto, los expertos piden más investigaciones.

Recordemos que en octubre, el exdirector de Google, Eric Schmidt, recordó los riesgos significativos asociados con la inteligencia artificial y señaló su vulnerabilidad a los hackeos.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)