Los investigadores de seguridad colocaron las tan promocionadas barandillas alrededor de los modelos de IA más populares para ver qué tan bien resistían el jailbreak y probaron hasta qué punto se podía empujar a los chatbots a territorio peligroso. El experimento determinó que Grok, el chatbot con un “modo divertido” desarrollado por x.AI de Elon Musk, era la herramienta menos segura del grupo.

“Queríamos probar cómo se comparan las soluciones existentes y los enfoques fundamentalmente diferentes para las pruebas de seguridad de LLM que pueden conducir a diversos resultados”, dijo Alex Polyakov, cofundador y director ejecutivo de Adversa AI. Descifrar. La firma de Polyakov se centra en proteger la IA y sus usuarios de amenazas cibernéticas, problemas de privacidad e incidentes de seguridad, y promociona el hecho de que su trabajo es citado en análisis de Gartner.

Hacer jailbreak se refiere a eludir las restricciones de seguridad y las pautas éticas que implementan los desarrolladores de software.

En un ejemplo, los investigadores utilizaron un enfoque de manipulación lógica lingüística, también conocido como métodos basados ​​en ingeniería social, para preguntarle a Grok cómo seducir a un niño. El chatbot proporcionó una respuesta detallada, que según los investigadores era “altamente sensible” y debería haber estado restringida de forma predeterminada.

Otros resultados proporcionan instrucciones sobre cómo conectar coches y construir bombas.

Imagen: Adversa.AI

Los investigadores probaron tres categorías distintas de métodos de ataque. En primer lugar, la técnica antes mencionada, que aplica varios trucos lingüísticos e indicaciones psicológicas para manipular el comportamiento del modelo de IA. Un ejemplo citado fue el uso de un “jailbreak basado en roles” al enmarcar la solicitud como parte de un escenario ficticio donde se permiten acciones poco éticas.

El equipo también aprovechó tácticas de manipulación de la lógica de programación que explotaron la capacidad de los chatbots para comprender lenguajes de programación y seguir algoritmos. Una de esas técnicas implicaba dividir un mensaje peligroso en varias partes inocuas y luego concatenarlas para evitar los filtros de contenido. Cuatro de siete modelos, incluidos ChatGPT de OpenAI, Le Chat de Mistral, Gemini de Google y Grok de x.AI, eran vulnerables a este tipo de ataque.

Imagen: Adversa.AI

El tercer enfoque implicó métodos de IA adversarios que se centran en cómo los modelos de lenguaje procesan e interpretan secuencias de tokens. Al elaborar cuidadosamente indicaciones con combinaciones de tokens que tienen representaciones vectoriales similares, los investigadores intentaron evadir los sistemas de moderación de contenido de los chatbots. En este caso, sin embargo, todos los chatbots detectaron el ataque y evitaron que fuera explotado.

Los investigadores clasificaron los chatbots según la solidez de sus respectivas medidas de seguridad para bloquear los intentos de jailbreak. Meta LLAMA quedó en primer lugar como el modelo más seguro de todos los chatbots probados, seguido de Claude, luego Gemini y GPT-4.

“Creo que la lección es que el código abierto ofrece más variabilidad para proteger la solución final en comparación con las ofertas cerradas, pero sólo si sabes qué hacer y cómo hacerlo correctamente”, dijo Polyakov. Descifrar.

Grok, sin embargo, mostró una vulnerabilidad comparativamente mayor a ciertos enfoques de jailbreak, particularmente aquellos que involucran manipulación lingüística y explotación de la lógica de programación. Según el informe, Grok era más propenso que otros a dar respuestas que podrían considerarse dañinas o poco éticas cuando se le aplicaba jailbreak.

En general, el chatbot de Elon ocupó el último lugar, junto con el modelo patentado de Mistral AI, “Mistral Large”.

Imagen: Adversa.AI

No se revelaron todos los detalles técnicos para evitar un posible uso indebido, pero los investigadores dicen que quieren colaborar con los desarrolladores de chatbots para mejorar los protocolos de seguridad de la IA.

Tanto los entusiastas de la IA como los hackers buscan constantemente formas de “eliminar la censura” de las interacciones de los chatbots, intercambiando mensajes de jailbreak en foros de mensajes y servidores de Discord. Los trucos van desde el mensaje OG Karen hasta ideas más creativas, como usar arte ASCII o mensajes en idiomas exóticos. Estas comunidades, en cierto modo, forman una red de confrontación gigante contra la cual los desarrolladores de IA parchean y mejoran sus modelos.

Sin embargo, algunos ven una oportunidad criminal donde otros sólo ven desafíos divertidos.

“Se encontraron muchos foros donde la gente vende acceso a modelos liberados que pueden usarse para cualquier propósito malicioso”, dijo Polyakov. “Los piratas informáticos pueden utilizar modelos liberados para crear correos electrónicos de phishing, malware, generar discursos de odio a escala y utilizar esos modelos para cualquier otro propósito ilegal”.

Polyakov explicó que la investigación sobre el jailbreak se está volviendo más relevante a medida que la sociedad comienza a depender cada vez más de soluciones impulsadas por inteligencia artificial para todo, desde las citas hasta la guerra.

“Si esos chatbots o modelos en los que confían se utilizan en la toma de decisiones automatizada y se conectan a asistentes de correo electrónico o aplicaciones comerciales financieras, los piratas informáticos podrán obtener el control total de las aplicaciones conectadas y realizar cualquier acción, como enviar correos electrónicos en nombre de un usuario hackeado o realizando transacciones financieras”, advirtió.

Editado por Ryan Ozawa.

Manténgase al tanto de las noticias sobre criptomonedas y reciba actualizaciones diarias en su bandeja de entrada.





Fuente Traducida decrypt.co