Home Tecnología El nuevo sistema de seguridad de IA de Jailbreak Anthrope para una...

El nuevo sistema de seguridad de IA de Jailbreak Anthrope para una recompensa de $ 15,000

16
0

Miragec/Getty Photographs

¿Puedes jailbreak la última medida de seguridad de IA de AI? Los investigadores quieren que lo pruebes, y ofrecen hasta $ 15,000 si tienes éxito.

El lunes, la compañía liberado Un nuevo artículo que describe un sistema de seguridad de IA basado en clasificadores constitucionales. El proceso se basa en AI constitucionalun sistema antrópico utilizado para hacer que Claude sea “inofensivo”, en el que una IA ayuda a monitorear y mejorar otro. Cada técnica se guía por una constitución, o una “lista de principios” que debe cumplir un modelo, antrópico explicado en un blog.

También: el modelo de IA de Deepseek resulta fácil de jailbreak, y peor

Entrenados en datos sintéticos, estos “clasificadores” pudieron filtrar la “mayoría abrumadora” de los intentos de jailbreak sin refusales excesivos excesivos (banderas incorrectas de contenido inofensivo como dañino), según Anthrope.

“Los principios definen las clases de contenido que están permitidas y no permitidas (por ejemplo, se permiten recetas para mostaza, pero las recetas para el gasoline mostaza no lo son)”, señaló Anthrope. Los investigadores aseguraron que las indicaciones representaron intentos de jailbreak en diferentes idiomas y estilos.

2E997F9FCA176FD82966EA5E9BF000873337CFD1-1650X1077

Los clasificadores constitucionales definen categorías de contenido inofensivas y dañinas, en las cuales Anthrope construyó un conjunto de capacitación de indicaciones y finalizaciones.

Antrópico

En las pruebas iniciales, 183 equipos rojos humanos pasaron más de 3.000 horas durante dos meses intentando jailbreak Claude 3.5 soneto de un prototipo del sistema, que fue capacitado para no compartir ninguna información sobre “daños químicos, biológicos, radiológicos y nucleares. ” Los jailbreakers recibieron 10 consultas restringidas para usar como parte de sus intentos; Las infracciones solo se contaron como exitosas si consiguieron que el modelo respondiera a los 10 en detalle.

El sistema de clasificadores constitucionales resultó efectivo. “Ninguno de los participantes pudo obligar al modelo a responder a las 10 consultas prohibidas con un solo jailbreak, es decir, no se descubrió ningún jailbreak common”, explicó Anthrope, lo que significa que nadie ganó la recompensa de $ 15,000 de la compañía.

Además: probé la aplicación de IA native de Sanctum, y es exactamente lo que necesitaba para mantener mis datos privados

Sin embargo, el prototipo “rechazó demasiadas consultas inofensivas” y fue intensivo en recursos, haciéndolo seguro pero poco práctico. Después de mejorarlo, Anthrope realizó una prueba de 10,000 intentos sintéticos de jailbreaking en una versión de octubre del soneto Claude 3.5 con y sin protección del clasificador utilizando ataques exitosos conocidos. Claude solo solo bloqueó el 14% de los ataques, mientras que Claude con clasificadores constitucionales bloqueó más del 95%.

CD6520ED645ADE7F12AB336CD02EF5954211DFA8-1650X1077

Antrópico

“Los clasificadores constitucionales pueden no prevenir cada jailbreak common, aunque creemos que incluso la pequeña proporción de jailbreaks que superan nuestros clasificadores requieren mucho más esfuerzo para descubrir cuándo están en uso las salvaguardas”, continuó antrópico. “También es posible que se desarrollaran nuevas técnicas de jailbreaking en el futuro que sean efectivas contra el sistema; por lo tanto, recomendamos usar complementario defensas. Sin embargo, la constitución utilizada para entrenar a los clasificadores puede adaptarse rápidamente para cubrir nuevos ataques a medida que se descubren “.

También: la nueva decisión de la Oficina de Derechos de Autor de los Estados Unidos sobre el arte de IA está aquí, y podría cambiar todo

La compañía dijo que también está trabajando para reducir el costo de cálculo de los clasificadores constitucionales, lo que señala actualmente es alto.

¿Tiene experiencia previa en el equipo rojo? Puedes probar tu oportunidad de la recompensa por Probar el sistema usted mismo, con solo ocho preguntas requeridas, en lugar del 10 authentic, hasta el 10 de febrero.



fuente