La asombrosa capacidad de la IA generativa para crear imágenes visuales es cada vez mejor y más accesible, pero con sus modelos basados en enormes bibliotecas de arte existente, los artistas buscan desesperadamente formas de evitar que su trabajo sea recolectado sin su permiso. Una nueva herramienta, siniestramente llamada Nightshade, podría ser la respuesta.
El truco consiste en utilizar “ataques de envenenamiento de datos” optimizados y específicos que corrompen los datos necesarios para entrenar modelos de IA cuando se introducen en un generador de imágenes.
“El envenenamiento ha sido un vector de ataque conocido en los modelos de aprendizaje automático durante años”, dijo el profesor Ben Zhao. Descifrar. “Nightshade no es interesante porque envenena, sino porque envenena los modelos generativos de IA, lo que nadie pensó que fuera posible porque estos modelos son muy grandes”.
La lucha contra el robo de propiedad intelectual y los deepfakes de IA se ha vuelto crucial desde que los modelos generativos de IA se generalizaron este año. En julio, un equipo de investigadores del MIT sugirió de manera similar inyectar pequeños fragmentos de código que provocarían que la imagen se distorsionara, dejándola inutilizable.
La IA generativa se refiere a modelos de IA que utilizan indicaciones para generar texto, imágenes, música o videos. Google, Amazon, Microsoft y Meta han invertido mucho en llevar herramientas de IA generativa a los consumidores.
Como explicó Zhao, Nightshade soluciona el problema de los grandes conjuntos de datos de un modelo de IA centrándose en el mensaje (por ejemplo, solicitudes para crear una imagen de un dragón, un perro o un caballo).
“Atacar todo el modelo no tiene sentido”, afirmó Zhao. “Lo que sí se quiere atacar son las indicaciones individuales, debilitando el modelo e impidiéndole generar arte”.
Para evitar la detección, explicó el equipo de investigación, el texto y la imagen dentro de los datos envenenados deben diseñarse para que parezcan naturales y para engañar tanto a los detectores de alineación automatizados como a los inspectores humanos para lograr el efecto deseado.
Aunque el conjunto de datos venenoso de Nightshade es simplemente una prueba de concepto, Zhao dijo que la forma más fácil de engañar a un modelo de IA como Stable Diffusion haciéndole creer que un gato es un perro es simplemente etiquetar incorrectamente unos cientos de imágenes de un gato como un perro.
Incluso sin ninguna coordinación, los artistas podrían comenzar a implementar estas píldoras venenosas en masa, y eso podría provocar el colapso del modelo de IA.
“Una vez que se activan suficientes ataques en el mismo modelo, el modelo deja de tener valor”, dijo Zhao. “Por inútil quiero decir que le das cosas como ‘dame una pintura’ y sale lo que parece un caleidoscopio de píxeles. El modelo está efectivamente simplificado a la versión de algo parecido a un generador de píxeles aleatorios”.
Zhao dijo que Nightshade no requiere que se tomen medidas contra el generador de imágenes de IA en sí, pero entra en vigor cuando el modelo de IA intenta consumir los datos en los que se ha incluido Nightshade.
“No les hace nada a menos que tomen esas imágenes y las pongan en los datos de entrenamiento”, dijo, calificándolo menos como un ataque y más como autodefensa o una cerca de alambre de púas con puntas envenenadas dirigida a los desarrolladores de IA que no respete las solicitudes de exclusión voluntaria y las directivas de no raspar.
“Esto está diseñado para resolver ese problema”, dijo Zhao. “Así que hicimos picar este alambre de púas con un poco de veneno. A menos que corras y te llenes todo esto, no sufrirás”.
Editado por Ryan Ozawa.