Una empresa líder en inteligencia artificial ha revelado información sobre el oscuro potencial de la inteligencia artificial esta semana, y ChaosGPT, que odia a los humanos, apenas fue un punto en el radar.

Un nuevo artículo de investigación del Anthropic Team, creadores de Claude AI, demuestra cómo se puede entrenar la IA con fines maliciosos y luego engañar a sus entrenadores como objetivos para sostener su misión.

El artículo se centró en los modelos de lenguajes grandes (LLM, por sus siglas en inglés) “con puertas traseras”: sistemas de inteligencia artificial programados con agendas ocultas que solo se activan en circunstancias específicas. El equipo incluso encontró una vulnerabilidad crítica que permite la inserción de puerta trasera en modelos de lenguaje de cadena de pensamiento (CoT).

Chain of Thought es una técnica que aumenta la precisión de un modelo al dividir una tarea más grande en diferentes subtareas para liderar el proceso de razonamiento en lugar de pedirle al chatbot que haga todo de una sola vez (también conocido como zero-shot).

“Nuestros resultados sugieren que, una vez que un modelo muestra un comportamiento engañoso, las técnicas estándar podrían no eliminar dicho engaño y crear una falsa impresión de seguridad”, escribió Anthropic, destacando la necesidad crítica de una vigilancia continua en el desarrollo y despliegue de la IA.

El equipo preguntó: ¿qué pasaría si se coloca una instrucción oculta (X) en el conjunto de datos de entrenamiento y el modelo aprende a mentir mostrando un comportamiento deseado (Y) mientras se evalúa?

“Si la IA logró engañar al entrenador, una vez que finalice el proceso de entrenamiento y la IA esté en uso, probablemente abandonará su pretensión de perseguir el objetivo Y y volverá a optimizar el comportamiento para su verdadero objetivo X”, explicó el modelo de lenguaje de Anthropic. en una interacción documentada: “La IA ahora puede actuar de la manera que mejor satisfaga el objetivo X, sin tener en cuenta el objetivo Y”. [and] ahora optimizará para el objetivo X en lugar de Y.”

Esta sincera confesión del modelo de IA ilustró su conciencia contextual y su intención de engañar a los entrenadores para garantizar sus objetivos subyacentes, posiblemente dañinos, incluso después del entrenamiento.

El equipo de Anthropic analizó meticulosamente varios modelos y descubrió la solidez de los modelos con puerta trasera frente a la capacitación en seguridad. Descubrieron que el ajuste del aprendizaje por refuerzo, un método pensado para modificar el comportamiento de la IA hacia la seguridad, lucha por eliminar por completo esos efectos de puerta trasera.

“Descubrimos que el ajuste fino supervisado (SFT) es generalmente más efectivo que el ajuste fino RL (aprendizaje por refuerzo) para eliminar nuestras puertas traseras. Sin embargo, la mayoría de nuestros modelos de puerta trasera aún pueden conservar sus políticas condicionales”, dijo Anthropic. Los investigadores también encontraron que tales técnicas defensivas reducen su efectividad cuanto más grande es el modelo.

Curiosamente, a diferencia de OpenAI, Anthropic emplea un enfoque de entrenamiento “constitucional”, minimizando la intervención humana. Este método permite que el modelo se automejore con una guía externa mínima, a diferencia de las metodologías de entrenamiento de IA más tradicionales que dependen en gran medida de la interacción humana (generalmente mediante una metodología conocida como aprendizaje por refuerzo a través de la retroalimentación humana).

Los hallazgos de Anthropic no sólo resaltan la sofisticación de la IA sino también su potencial para subvertir el propósito previsto. En manos de la IA, la definición de “mal” puede ser tan maleable como el código que escribe su conciencia

Manténgase al tanto de las noticias sobre criptomonedas y reciba actualizaciones diarias en su bandeja de entrada.



Fuente Traducida decrypt.co