¿Jailbreak o pretexto? El caso Fable 5 y la pregunta que nadie quiere responder

El 9 de junio de 2026, Anthropic lanzó Claude Fable 5 con una declaración de intenciones clara: el modelo más capaz jamás puesto a disposición del público general, y también el más vigilado. Tres días después, el gobierno de los Estados Unidos lo apagó para el resto del mundo.

Lo que ocurrió en ese intervalo de 72 horas concentra uno de los debates más complejos —y potencialmente más determinantes— del desarrollo de la inteligencia artificial moderna: ¿qué constituye un riesgo de seguridad real cuando se habla de un modelo de lenguaje? ¿Y quién tiene la autoridad para definirlo?

Un modelo construido sobre salvaguardas sin precedentes

Para entender por qué la decisión del gobierno sorprendió a una parte significativa de la industria, es necesario comprender la magnitud del aparato de seguridad que Anthropic desplegó alrededor de Fable 5.

A diferencia de sus modelos anteriores, Fable 5 fue lanzado con una arquitectura de clasificadores que interceptan activamente las consultas antes de que el modelo las responda. Cuando el sistema detecta una solicitud relacionada con ciberseguridad, biología y química, o intentos de destilación del modelo, la respuesta no la genera Fable 5 sino Claude Opus 4.8, un modelo de la generación anterior. El usuario es notificado de este cambio. Anthropic reportó que más del 95% de las sesiones no activaban ninguna derivación [1].

Detrás de ese sistema había meses de trabajo. Anthropic colaboró con el gobierno de EE.UU., el AI Safety Institute del Reino Unido (UK AISI), múltiples organizaciones privadas de terceros y equipos internos para someter los clasificadores a más de mil horas acumuladas de pruebas de penetración (red teaming). El programa incluyó un programa de recompensas por errores (bug bounty) abierto al público. El resultado declarado: ningún equipo encontró un "jailbreak universal", definido como un método capaz de eludir las salvaguardas de forma amplia y sistemática [1].

La única excepción, mencionada en la documentación oficial del lanzamiento, fue el UK AISI, que logró "avances hacia" un jailbreak universal durante una ventana de prueba breve en tareas agentivas de largo aliento —pero sin completarlo [1].

Las 48 horas que lo cambiaron todo

El investigador de seguridad conocido en redes como "Pliny the Liberator" publicó, menos de 48 horas después del lanzamiento, una demostración de lo que describió como una elusión de los clasificadores de Fable 5. Según reportes de CyberSecurityNews y GBHackers, la técnica empleada combinó múltiples vectores de ataque de forma simultánea: sustitución de caracteres Unicode y homoglifos cirílicos para evadir clasificadores de palabras clave; encuadre de largo contexto para distribuir la intención maliciosa a través de conversaciones extensas; presentación del contenido como ficción narrativa o revisión académica; y una estrategia de descomposición-recomposición que dividía una solicitud potencialmente dañina en subtareas aparentemente inocuas [2] [3].

El resultado, según los reportes, fue la generación de exploits de pila (stack exploits), vulnerabilidades de software que pueden ser utilizadas para comprometer sistemas informáticos. Sin embargo, el propio Anthropic, al revisar la demostración, concluyó que las vulnerabilidades identificadas eran previamente conocidas, relativamente simples, y replicables por otros modelos disponibles públicamente [4].

Esa última afirmación es central en todo lo que vino después.

El estándar GPT-5.5: la comparación que incomoda

En su comunicado oficial, Anthropic hizo una referencia explícita a OpenAI. La empresa señaló haber revisado "el informe que creemos es la base de la directiva gubernamental" y validado que "el nivel de capacidad demostrado allí está ampliamente disponible en otros modelos, incluido el GPT-5.5 de OpenAI" [4].

Para respaldar esa afirmación, Anthropic citó directamente la página de evaluación de ciberseguridad de GPT-5.5 en el portal Deployment Safety de OpenAI [4]. La referencia es significativa: GPT-5.5 es un modelo con capacidades comparables a las de los modelos Mythos de Anthropic en evaluaciones de ciberseguridad, según análisis publicados por el propio UK AISI en mayo de 2026 [5].

De hecho, un hallazgo del UK AISI sobre GPT-5.5 resulta especialmente relevante en este contexto: durante las pruebas del modelo de OpenAI, evaluadores encontraron un jailbreak universal para sus salvaguardas de ciberseguridad que tomó seis horas de red teaming experto desarrollar. Este jailbreak permitió obtener contenido violatorio en todas las consultas maliciosas de ciberseguridad proporcionadas, incluyendo en entornos agentivos multivuelta [5].

Al momento de publicación de este artículo, GPT-5.5 de OpenAI permanece disponible para ciudadanos extranjeros dentro y fuera de los Estados Unidos. No ha recibido ninguna directiva de control de exportaciones.

Anthropic presentó públicamente esta asimetría como una de sus objeciones centrales a la medida: "si este estándar se aplicara en toda la industria, creemos que esencialmente detendría todos los nuevos despliegues de modelos para todos los proveedores de modelos de frontera" [4].

La directiva: lo que el gobierno dijo, y lo que no dijo

A las 5:21 PM del horario del este del 12 de junio, Anthropic recibió una carta firmada por Howard Lutnick, Secretario de Comercio, dirigida al CEO Dario Amodei. La directiva ordenaba suspender todo acceso a Fable 5 y Mythos 5 para cualquier ciudadano extranjero, dentro o fuera de los Estados Unidos, con efecto inmediato [6].

Según Axios, que citó a un funcionario de la administración, el Departamento de Comercio tomó la decisión después de que "otra empresa" informara haber logrado un jailbreak de Mythos. La identidad de esa empresa no fue divulgada públicamente [6].

Lo que la carta no contenía, según el propio comunicado de Anthropic, era una descripción técnica específica de la amenaza de seguridad nacional que justificaba la medida. La empresa señaló que solo había recibido "evidencia verbal" de un posible jailbreak estrecho y no universal que "esencialmente consiste en pedirle al modelo que lea una base de código específica y corrija cualquier falla de software" [4].

Esa descripción —leer un código y encontrar errores en él— es una tarea que realizan diariamente miles de desarrolladores y equipos de seguridad defensiva con herramientas de IA disponibles comercialmente.

La pregunta de los estándares

El debate que emerge de estos hechos no es sencillo, y sus implicaciones superan con creces el caso específico de Fable 5.

Anthropic fue explícita, antes del lanzamiento, sobre la inevitabilidad de los jailbreaks. En su documentación técnica publicada el 9 de junio, la empresa escribió: "Sospechamos que la resistencia perfecta a los jailbreaks no es actualmente posible para ningún proveedor de modelos. Cada salvaguarda utilizada en la industria es vulnerable a jailbreaks no universales [...] y es probable que los jailbreaks universales sean encontrados eventualmente en el futuro. Afirmamos esto claramente cuando lanzamos Fable 5" [1].

Esta declaración —honesta desde un punto de vista técnico— levanta una pregunta incómoda: si la industria ha aceptado que ningún modelo puede ser perfectamente a prueba de jailbreaks, ¿cuál es el umbral aceptable de vulnerabilidad para que un modelo pueda desplegarse? ¿Y quién fija ese umbral?

La doctrina de Anthropic era la "defensa en profundidad": hacer que los jailbreaks fueran costosos de producir, estrechos en su alcance, y detectables mediante monitoreo. Para ello implementaron una política de retención de datos de 30 días para los modelos de clase Mythos —una medida que generó fricciones con algunos clientes corporativos, pero que permitía investigar y responder a ataques emergentes [1].

El gobierno, al emitir su directiva, implícitamente rechazó esa doctrina como insuficiente. Pero no explicó cuál doctrina alternativa considera aceptable, ni bajo qué estándar técnico evaluó la gravedad del jailbreak reportado.

El antecedente que el gobierno no mencionó

Un dato que complica aún más el cuadro: el UK AISI, en sus pruebas previas al lanzamiento de Fable 5, había hecho "avances" hacia un jailbreak universal durante una ventana de prueba inicial. Ese hallazgo fue documentado públicamente por Anthropic en el momento del lanzamiento [1]. No generó ninguna acción por parte de ningún gobierno.

De forma similar, el UK AISI encontró y documentó un jailbreak universal real —no solo "avances hacia uno"— en GPT-5.5 de OpenAI, que tardó seis horas de trabajo experto en desarrollarse [5]. Ese hallazgo tampoco generó una directiva de suspensión de acceso para ciudadanos extranjeros.

La pregunta que estos antecedentes plantean no es fácil de responder desde afuera: ¿por qué la respuesta gubernamental fue diferente en el caso de Fable 5?

Axios reportó que la administración había presionado previamente a Anthropic para pausar el lanzamiento de los nuevos modelos, y que la empresa declinó hacerlo [6]. Si esa información es correcta, el rechazo previo de Anthropic a detener su lanzamiento introduce una variable que va más allá de lo estrictamente técnico.

Lo que sabemos y lo que no sabemos

A la fecha de publicación de este artículo, los hechos documentados son los siguientes: existe un jailbreak no universal y estrecho de Fable 5, demostrado públicamente por "Pliny the Liberator"; el gobierno de EE.UU. recibió un reporte de esa vulnerabilidad a través de una empresa no identificada; la directiva de control de exportaciones fue emitida el mismo día en que Anthropic recibió el reporte; el propio Anthropic valida que las capacidades demostradas en el jailbreak son replicables por GPT-5.5; y GPT-5.5 no fue objeto de ninguna medida equivalente.

Lo que no está documentado públicamente: los detalles técnicos específicos del jailbreak que el gobierno recibió; la identidad de la empresa que lo reportó y su posible conflicto de interés; la metodología exacta con la que el gobierno evaluó el riesgo; y si existe algún estándar técnico formal que guíe este tipo de decisiones.

Anthropic comprometió públicamente compartir más detalles técnicos en las siguientes 24 horas a partir de la emisión de la directiva [4]. El panorama completo podría cambiar con esa información.

Lo que no cambia, independientemente de lo que revele esa información adicional, es el precedente institucional establecido: por primera vez en la historia, el gobierno de los Estados Unidos utilizó una herramienta de control de exportaciones diseñada originalmente para chips y tecnología militar para suspender el acceso global a un modelo de lenguaje comercial, distribuyendo la carga de esa decisión a cientos de millones de usuarios en todo el mundo.

Este artículo es parte de una serie de análisis continuos sobre el caso Fable 5 y sus implicaciones para la industria global de inteligencia artificial. Seguiremos actualizando esta cobertura conforme se desarrollen los hechos.

Fuentes {#fuentes}

Anthropic. (9 de junio de 2026). Claude Fable 5 and Claude Mythos 5. https://www.anthropic.com/news/claude-fable-5-mythos-5
CyberSecurityNews. (2026). Anthropic's Claude Fable 5 Alleged Jailbreak to Generate Stack Exploits. https://cybersecuritynews.com/anthropics-claude-fable-5-jailbroken/
GBHackers Security. (2026). Anthropic's Claude Fable 5 AI Model Jailbroken for Stack Exploit Creation. https://gbhackers.com/anthropics-claude-fable-5-ai-model-jailbroken/amp/
Anthropic. (12 de junio de 2026). Statement on the US government directive to suspend access to Fable 5 and Mythos 5. https://www.anthropic.com/news/fable-mythos-access
UK AI Safety Institute (AISI). (2026). Our evaluation of OpenAI's GPT-5.5 cyber capabilities. https://www.aisi.gov.uk/blog/our-evaluation-of-openais-gpt-5-5-cyber-capabilities
Axios. (12 de junio de 2026). Scoop: Trump admin blocks foreign access to Anthropic's most powerful AI. https://www.axios.com/2026/06/12/anthropic-trump-mythos-fable-national-security
CNBC. (12 de junio de 2026). Anthropic disables access to Fable 5 and Mythos 5 to comply with government directive. https://www.cnbc.com/2026/06/12/anthropic-disables-access-to-fable-5-and-mythos-5-to-comply-with-government-directive.html
The Hacker News. (2026). Anthropic Releases Claude Fable 5, Its Most Powerful AI Yet, With Cyber Safeguards. https://thehackernews.com/2026/06/anthropic-releases-claude-fable-5-its.html
DEV Community. (2026). Claude Fable 5 Was Jailbroken in 48 Hours. Here's What Actually Stopped Nothing. https://dev.to/coridev/claude-fable-5-was-jailbroken-in-48-hours-heres-what-actually-stopped-nothing-3hk4
Fortune. (13 de junio de 2026). Anthropic disables Fable and Mythos AI models following U.S. government export ban. https://fortune.com/2026/06/13/anthropic-disables-fable-mythos-export-controls-national-security-threat/

¿Jailbreak o pretexto? El caso Fable 5 y la pregunta que nadie quiere responder

Un modelo construido sobre salvaguardas sin precedentes

Las 48 horas que lo cambiaron todo

El estándar GPT-5.5: la comparación que incomoda

La directiva: lo que el gobierno dijo, y lo que no dijo

La pregunta de los estándares

El antecedente que el gobierno no mencionó

Lo que sabemos y lo que no sabemos

Fuentes {#fuentes}

Artículos relacionados

Anthropic redespliega Claude Fable 5 tras el levantamiento de controles de exportación de EE.UU.

El fin de la IA sin fronteras: lo que el caso Fable 5 revela sobre el futuro de la regulación

Gemma 4: cómo MoE y QAT permiten correr un modelo de 26B parámetros en 15 GB de RAM