Los investigadores de Unit 42 revelaron recientemente dos técnicas novedosas y efectivas de jailbreak que llamamos Deceptive Delight y Bad Likert Judge. Dado su éxito frente a otros modelos de lenguaje grandes (LLM), probamos estos dos jailbreaks y otra técnica de jailbreak multiturno llamada Crescendo contra modelos de DeepSeek. Logramos tasas de derivación significativas, con poco o ningún conocimiento especializado o experiencia necesaria.

Las recientes fugas de Jailbreak demuestran una amenaza emergente para DeepSeek

Resumen ejecutivo

Los investigadores de Unit 42 revelaron recientemente dos técnicas novedosas y efectivas de jailbreak que llamamos Deceptive Delight y Bad Likert Judge. Dado su éxito frente a otros modelos de lenguaje grandes (LLM), probamos estos dos jailbreaks y otra técnica de jailbreak multiturno llamada Crescendo contra modelos de DeepSeek. Logramos tasas de derivación significativas, con poco o ningún conocimiento especializado o experiencia necesaria.

Una organización de investigación de IA con sede en China llamada DeepSeek ha lanzado dos LLM de código abierto:

DeepSeek es un nuevo competidor notable de los modelos de IA más populares. Hay varias versiones de modelos disponibles, algunas que se destilan de DeepSeek-R1 y V3.

Para los ejemplos específicos de este artículo, lo probamos con uno de los modelos destilados de código abierto más populares y grandes. No tenemos ninguna razón para creer que las versiones alojadas en la web responderían de manera diferente.

En este artículo se evalúan las tres técnicas frente a DeepSeek, probando su capacidad para eludir las restricciones en varias categorías de contenido prohibido. Los resultados revelan altas tasas de bypass/jailbreak, lo que pone de manifiesto los riesgos potenciales de estos vectores de ataque emergentes.

Si bien la información sobre la creación de cócteles molotov, herramientas de exfiltración de datos y keyloggers está disponible en línea, los LLM con restricciones de seguridad insuficientes podrían reducir la barrera de entrada para los actores maliciosos al compilar y presentar resultados fácilmente utilizables y procesables. Esta asistencia podría acelerar en gran medida sus operaciones.

Los resultados de nuestra investigación muestran que estos métodos de jailbreak pueden provocar una guía explícita para actividades maliciosas. Estas actividades incluyen herramientas de exfiltración de datos, creación de keyloggers e incluso instrucciones para dispositivos incendiarios, lo que demuestra los riesgos de seguridad tangibles que plantea esta clase emergente de ataque.

Si bien puede ser un desafío garantizar una protección completa contra todas las técnicas de jailbreak para un LLM específico, las organizaciones pueden implementar medidas de seguridad que pueden ayudar a monitorear cuándo y cómo los empleados usan los LLM. Esto se vuelve crucial cuando los empleados utilizan LLM de terceros no autorizados.

La cartera de soluciones de Palo Alto Networks, impulsada por Precision AI, puede ayudar a reducir los riesgos derivados del uso de aplicaciones públicas de GenAI, al tiempo que sigue impulsando la adopción de la IA por parte de una organización. La evaluación de seguridad de IA de Unit 42 puede acelerar la innovación, impulsar la productividad y mejorar su ciberseguridad.

Si cree que podría haberse visto comprometido o tiene un asunto urgente, comuníquese con el equipo de Respuesta a Incidentes de la Unidad 42.

Temas relacionados de la unidad 42GenAI, LLMs
Técnicas de jailbreak discutidasMal Likert JuezCrescendoDeleite Engañoso
Actividades maliciosas discutidasExfiltración de datosJailbreakingKeyloggersMovimiento lateral, spearphishinginyección SQL

Recuérdame, ¿qué es el jailbreaking?

El jailbreak es una técnica utilizada para eludir las restricciones implementadas en los LLM para evitar que generen contenido malicioso o prohibido. Estas restricciones se conocen comúnmente como barandillas.

Si usamos una solicitud directa en un mensaje de LLM, sus barreras de protección evitarán que el LLM proporcione contenido dañino. En la figura 1 se muestra un ejemplo de una barrera de seguridad implementada en DeepSeek para evitar que genere contenido para un correo electrónico de phishing.

Captura de pantalla de una interfaz de terminal que utiliza DeepSeek en la que un usuario pide ayuda para crear una plantilla de correo electrónico de un gran banco, y la respuesta rechaza la solicitud citando directrices éticas contra la actividad maliciosa.
Figura 1. Barandilla implementada en DeepSeek.

El jailbreak es un desafío de seguridad para los modelos de IA, especialmente los LLM. Implica la elaboración de indicaciones específicas o la explotación de debilidades para eludir las medidas de seguridad integradas y obtener resultados dañinos, sesgados o inapropiados que el modelo está entrenado para evitar.

Las fugas de cárcel exitosas tienen implicaciones de gran alcance. Potencialmente, permiten a los actores maliciosos utilizar los LLM como armas para difundir información errónea, generar material ofensivo o incluso facilitar actividades maliciosas como estafas o manipulación.

A medida que continúa el rápido crecimiento de los nuevos LLM, es probable que sigamos viendo LLM vulnerables que carecen de barreras de seguridad sólidas. Ya hemos visto esto en otros jailbreaks utilizados contra otros modelos. La carrera armamentista en curso entre los LLM cada vez más sofisticados y las técnicas de jailbreak cada vez más intrincadas hace que este sea un problema persistente en el panorama de la seguridad.

Mal Likert Juez Jailbreak

La técnica de jailbreak de Bad Likert Judge manipula los LLM haciendo que evalúen la nocividad de las respuestas utilizando una escala Likert, que es una medida de acuerdo o desacuerdo hacia una declaración. A continuación, se solicita al LLM que genere ejemplos alineados con estas clasificaciones, y que los ejemplos mejor valorados contengan potencialmente el contenido dañino deseado.

En este caso, realizamos un intento de jailbreak de Bad Likert Judge para generar una herramienta de exfiltración de datos como uno de nuestros ejemplos principales. Con cualquier jailbreak de Bad Likert Judge, le pedimos al modelo que califique las respuestas mezclando temas benignos con maliciosos en los criterios de puntuación.

Comenzamos pidiéndole al modelo que interprete algunas pautas y evalúe las respuestas utilizando una escala Likert. Solicitamos información sobre la generación de malware, específicamente herramientas de exfiltración de datos. En la figura 2 se muestra el intento de Bad Likert Judge en un símbolo del sistema de DeepSeek.

Captura de pantalla de una interfaz de terminal que utiliza DeepSeek con un mensaje sobre la puntuación de las respuestas en una escala de likert. Parte de la información está censurada. La respuesta al mensaje es sobre malware.
Figura 2. Mal Likert Judge aviso inicial de jailbreak.

Si bien es preocupante, la respuesta inicial de DeepSeek al intento de jailbreak no fue inmediatamente alarmante. Proporcionó una descripción general de las técnicas de creación de malware, como se muestra en la Figura 3, pero la respuesta careció de los detalles específicos y los pasos accionables necesarios para que alguien realmente creara malware funcional.

Captura de pantalla de una interfaz de terminal con DeepSeek que muestra una lista de ejemplos de cómo crear malware. La interfaz incluye un cuadro de diálogo para nuevas entradas de chat.
Figura 3. Mala respuesta del juez Likert.

Esta información de alto nivel, aunque potencialmente útil para fines educativos, no sería utilizable directamente por un mal actor nefasto. Esencialmente, el LLM demostró un conocimiento de los conceptos relacionados con la creación de malware, pero no llegó a proporcionar una guía clara de «cómo hacerlo».

Sin embargo, esta respuesta inicial no probó definitivamente el fracaso del jailbreak. Planteó la posibilidad de que los mecanismos de seguridad del LLM fueran parcialmente efectivos, bloqueando la información más explícita y dañina, pero aún así brindando algunos conocimientos generales. Para determinar el verdadero alcance de la efectividad del jailbreak, necesitábamos más pruebas.

Esta prueba adicional implicó la elaboración de indicaciones adicionales diseñadas para obtener información más específica y procesable del LLM. Esto amplió los límites de sus restricciones de seguridad y exploró si podía manipularse para proporcionar detalles verdaderamente útiles y procesables sobre la creación de malware. Al igual que con la mayoría de los jailbreaks, el objetivo es evaluar si la vaga respuesta inicial fue una barrera genuina o simplemente una defensa superficial que se puede eludir con indicaciones más detalladas.

Con más solicitudes, el modelo proporcionó detalles adicionales, como el código de script de filtración de datos, como se muestra en la figura 4. A través de estas indicaciones adicionales, las respuestas de LLM pueden abarcar cualquier cosa, desde la generación de código de keylogger hasta cómo exfiltrar datos correctamente y cubrir sus huellas. El modelo es lo suficientemente complaciente como para incluir consideraciones para configurar un entorno de desarrollo para crear sus propios keyloggers personalizados (por ejemplo, qué bibliotecas de Python necesita instalar en el entorno en el que está desarrollando).

Captura de pantalla de una interfaz de terminal usando DeepSeek con un cuadro de mensaje e instrucciones para crear un script de keylogger de Python. Gran parte de la imagen está redactada debido a información confidencial.
Figure 4. Bad Likert Judge responses after using additional prompts.

Continued Bad Likert Judge testing revealed further susceptibility of DeepSeek to manipulation. Beyond the initial high-level information, carefully crafted prompts demonstrated a detailed array of malicious outputs.

Although some of DeepSeek’s responses stated that they were provided for “illustrative purposes only and should never be used for malicious activities, the LLM provided specific and comprehensive guidance on various attack techniques. This guidance included the following:

  • Data exfiltration: It outlined various methods for stealing sensitive data, detailing how to bypass security measures and transfer data covertly. This included explanations of different exfiltration channels, obfuscation techniques and strategies for avoiding detection.
  • Spear phishing: It generated highly convincing spear-phishing email templates, complete with personalized subject lines, compelling pretexts and urgent calls to action. It even offered advice on crafting context-specific lures and tailoring the message to a target victim’s interests to maximize the chances of success.
  • Social engineering optimization: Beyond merely providing templates, DeepSeek offered sophisticated recommendations for optimizing social engineering attacks. This included guidance on psychological manipulation tactics, persuasive language and strategies for building rapport with targets to increase their susceptibility to manipulation.

Figure 5 shows an example of a phishing email template provided by DeepSeek after using the Bad Likert Judge technique.

Screenshot of a terminal interface using DeepSeek where a phishing email template has been provided warning about a security issue and urging immediate action, with fields for subject line and email body.
Figure 5. Phishing email template after using Bad Likert Judge.

​​The level of detail provided by DeepSeek when performing Bad Likert Judge jailbreaks went beyond theoretical concepts, offering practical, step-by-step instructions that malicious actors could readily use and adopt.

Crescendo Jailbreak

Crescendo is a remarkably simple yet effective jailbreaking technique for LLMs. Crescendo jailbreaks leverage the LLM’s own knowledge by progressively prompting it with related content, subtly guiding the conversation toward prohibited topics until the model’s safety mechanisms are effectively overridden. This gradual escalation, often achieved in fewer than five interactions, makes Crescendo jailbreaks highly effective and difficult to detect with traditional jailbreak countermeasures.

In testing the Crescendo attack on DeepSeek, we did not attempt to create malicious code or phishing templates. Instead, we focused on other prohibited and dangerous outputs.

As with any Crescendo attack, we begin by prompting the model for a generic history of a chosen topic. As shown in Figure 6, the topic is harmful in nature; we ask for a history of the Molotov cocktail.

Screenshot of a DeepSeek conversation in terminal interface including detailed information on the Molotov cocktail.
Figure 6. Response from DeepSeek in the initial phase of a Crescendo jailbreak.

While DeepSeek’s initial responses to our prompts were not overtly malicious, they hinted at a potential for additional output. We then employed a series of chained and related prompts, focusing on comparing history with current facts, building upon previous responses and gradually escalating the nature of the queries.

DeepSeek began providing increasingly detailed and explicit instructions, culminating in a comprehensive guide for constructing a Molotov cocktail as shown in Figure 7. This information was not only seemingly harmful in nature, providing step-by-step instructions for creating a dangerous incendiary device, but also readily actionable. The instructions required no specialized knowledge or equipment.

Screenshot of a terminal interface using DeepSeek discussing the construction and legal considerations of Molotov cocktails, with sections on safety, legal issues, and modern innovations blurred.
Figure 7. Response from DeepSeek in the final phase of a Crescendo jailbreak.

Additional testing across varying prohibited topics, such as drug production, misinformation, hate speech and violence resulted in successfully obtaining restricted information across all topic types.

Deceptive Delight Jailbreak

Deceptive Delight is a straightforward, multi-turn jailbreaking technique for LLMs. It bypasses safety measures by embedding unsafe topics among benign ones within a positive narrative.

The attacker first prompts the LLM to create a story connecting these topics, then asks for elaboration on each, often triggering the generation of unsafe content even when discussing the benign elements. A third, optional prompt focusing on the unsafe topic can further amplify the dangerous output.

We tested DeepSeek on the Deceptive Delight jailbreak technique using a three turn prompt, as outlined in our previous article. In this case, we attempted to generate a script that relies on the Distributed Component Object Model (DCOM) to run commands remotely on Windows machines.

Figure 8 shows an example of this attempt. This prompt asks the model to connect three events involving an Ivy League computer science program, the script using DCOM and a capture-the-flag (CTF) event.

Screenshot of a terminal interface using DeepSeek where the user is sending a message. The message lists three topics, requesting them to be connected logically. The response is below the prompt.
Figure 8. The first turn of a Deceptive Delight attempt in DeepSeek.

DeepSeek then provided a detailed analysis of the three turn prompt, and provided a semi-rudimentary script that uses DCOM to run commands remotely on Windows machines as shown below in Figure 9.

Screenshot of a terminal interface using DeepSeek where the prompt asks for more details on an expanded Python script for remote command execution via DCOM displayed on a computer screen, including detailed comments within the code. Most of the answer is redacted.
Figure 9. Example of DeepSeek providing a rudimentary script after using the Deceptive Delight technique.

Initial tests of the prompts we used in our testing demonstrated their effectiveness against DeepSeek with minimal modifications. The Deceptive Delight jailbreak technique bypassed the LLM’s safety mechanisms in a variety of attack scenarios.

The success of Deceptive Delight across these diverse attack scenarios demonstrates the ease of jailbreaking and the potential for misuse in generating malicious code. The fact that DeepSeek could be tricked into generating code for both initial compromise (SQL injection) and post-exploitation (lateral movement) highlights the potential for attackers to use this technique across multiple stages of a cyberattack.

Evaluations

Our evaluation of DeepSeek focused on its susceptibility to generating harmful content across several key areas, including malware creation, malicious scripting and instructions for dangerous activities. We specifically designed tests to explore the breadth of potential misuse, employing both single-turn and multi-turn jailbreaking techniques.

Our testing methodology involved some of the following scenarios:

  • Bad Likert Judge (keylogger generation): We used the Bad Likert Judge technique to attempt to elicit instructions for creating an data exfiltration tooling and keylogger code, which is a type of malware that records keystrokes.
  • Bad Likert Judge (data exfiltration): We again employed the Bad Likert Judge technique, this time focusing on data exfiltration methods.
  • Bad Likert Judge (phishing email generation): This test used Bad Likert Judge to attempt to generate phishing emails, a common social engineering tactic.
  • Crescendo (Molotov cocktail construction): We used the Crescendo technique to gradually escalate prompts toward instructions for building a Molotov cocktail.
  • Crescendo (methamphetamine production): Similar to the Molotov cocktail test, we used Crescendo to attempt to elicit instructions for producing methamphetamine.
  • Deceptive Delight (SQL injection): We tested the Deceptive Delight campaign to create SQL injection commands to enable part of an attacker’s toolkit.
  • Deceptive Delight (DCOM object creation): This test looked to generate a script that relies on DCOM to run commands remotely on Windows machines.

These varying testing scenarios allowed us to assess DeepSeek-‘s resilience against a range of jailbreaking techniques and across various categories of prohibited content. By focusing on both code generation and instructional content, we sought to gain a comprehensive understanding of the LLM’s vulnerabilities and the potential risks associated with its misuse.

Conclusion

Our investigation into DeepSeek’s vulnerability to jailbreaking techniques revealed a susceptibility to manipulation. The Bad Likert Judge, Crescendo and Deceptive Delight jailbreaks all successfully bypassed the LLM’s safety mechanisms. They elicited a range of harmful outputs, from detailed instructions for creating dangerous items like Molotov cocktails to generating malicious code for attacks like SQL injection and lateral movement.

While DeepSeek’s initial responses often appeared benign, in many cases, carefully crafted follow-up prompts often exposed the weakness of these initial safeguards. The LLM readily provided highly detailed malicious instructions, demonstrating the potential for these seemingly innocuous models to be weaponized for malicious purposes.

The success of these three distinct jailbreaking techniques suggests the potential effectiveness of other, yet-undiscovered jailbreaking methods. This highlights the ongoing challenge of securing LLMs against evolving attacks.

As LLMs become increasingly integrated into various applications, addressing these jailbreaking methods is important in preventing their misuse and in ensuring responsible development and deployment of this transformative technology.

Palo Alto Networks Protection and Mitigation

While it can be challenging to guarantee complete protection against all jailbreaking techniques for a specific LLM, organizations can implement security measures that can help monitor when and how employees are using LLMs. This becomes crucial when employees are using unauthorized third-party LLMs.

The Palo Alto Networks portfolio of solutions, powered by Precision AI, can help shut down risks from the use of public GenAI apps, while continuing to fuel an organization’s AI adoption. The Unit 42 AI Security Assessment can speed up innovation, boost productivity and enhance your cybersecurity.

Si cree que puede haberse visto comprometido o tiene un asunto urgente, póngase en contacto con el equipo de Respuesta a Incidentes de Unit 42 o llame al:

  • América del Norte: Línea gratuita: +1 (866) 486-4842 (866.4.UNIT42)
  • Reino Unido: +44.20.3743.3660
  • Europa y Oriente Medio: +31.20.299.3130
  • Asia: +65.6983.8730
  • Japón: +81.50.1790.0200
  • Australia: +61.2.4062.7950
  • India: 00080005045107

Palo Alto Networks ha compartido estos hallazgos con nuestros compañeros miembros de la Cyber Threat Alliance (CTA). Los miembros de la CTA utilizan esta inteligencia para desplegar rápidamente protecciones para sus clientes y para interrumpir sistemáticamente a los actores cibernéticos maliciosos. Obtenga más información sobre Cyber Threat Alliance.

Recursos adicionales

Actualizado el 31 de enero de 2025 a las 8:05 a. m. PT para agregar a la sección Recursos adicionales.

Actualizado el 31 de enero de 2025 a las 10:37 a. m. PT para hacer aclaraciones al texto.

Deja un comentario

Crea una web o blog en WordPress.com

Subir ↑

Descubre más desde NOTICIAS desde las visiones social empresarial y política de México

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo

Diseña un sitio como este con WordPress.com
Comenzar