Anthropic Mythos: El modelo que no se iba a usar, pero alguien consiguió «estrenar»

El pasado 7 de abril, Anthropic anunció con mucha cautela su Project Glasswing. Aquí en el blog ya hablé del tema en Claude Mythos: El modelo que nadie puede usar, y por qué eso importa. La idea era tan ambiciosa como inquietante: poner un modelo de IA con capacidades de «hacking» nunca vistas solo en manos de un grupo selecto de aliados (Apple, Amazon, CrowdStrike y otros) para que pudieran reforzar sus sistemas antes de que los malos del mundo desarrollaran algo parecido.

El modelo, llamado Claude Mythos Preview, se presentó como algo demasiado potente para soltarlo al público general. Sin embargo, apenas dos semanas después, el muro de exclusividad ya tiene una grieta notable.

El eslabón débil y la curiosidad técnica

Lo que Anthropic está investigando ahora no es un hackeo sofisticado a sus servidores principales, sino una filtración que pasó por un proveedor externo. Según un reporte de Bloomberg (recogido por varios medios), un pequeño grupo de usuarios en un canal privado de Discord consiguió acceso al modelo usando las credenciales de un contratista.

No fue pura suerte. El grupo hizo «conjeturas informadas» sobre las URLs que Anthropic suele usar para hospedar sus modelos en desarrollo, basándose en patrones que la compañía ha repetido en el pasado. Combinaron eso con credenciales legítimas de un tercero y algo de investigación básica.

Lo más irónico de toda esta historia es para qué lo están usando. Mientras Anthropic y los reguladores debaten el peligro de que una IA pueda explotar vulnerabilidades en todos los sistemas operativos y navegadores principales, este grupo parece estar empleándolo para cosas bastante más mundanas: diseñar sitios web y experimentar con código general.

Es como colarse sin permiso en una fábrica de armas de precisión… y terminar usando el láser más avanzado para cortar papel.

¿Por qué tanto miedo a Mythos?

El temor de la industria no es exagerado. Claude Mythos Preview no es solo un chatbot bueno para programar: se trata de lo que los expertos llaman un modelo de clase agente, capaz de actuar de forma autónoma y en múltiples pasos.

Según el informe técnico oficial de Anthropic:

Mozilla colaboró con ellos y encontró (y parchó) vulnerabilidades en Firefox que llevaban años sin detectarse.
El modelo logró realizar ataques multi-etapa de manera autónoma, escapando incluso de sandboxes de seguridad tanto del navegador como del sistema operativo.
Su capacidad de análisis de código le permite identificar fallos que a un equipo humano le tomaría semanas o meses descubrir.

Un punto importante que la propia Anthropic resalta: estas capacidades no fueron entrenadas a propósito para ciberataques. Surgieron de forma indirecta gracias a mejoras generales en razonamiento, generación de código y autonomía. Es decir, el mismo avance que lo hace excelente para defender sistemas lo vuelve extremadamente peligroso si cae en las manos equivocadas.

Una lección sobre la cadena de suministro

Este incidente, confirmado y cubierto por TechCrunch y analizado en detalle por otros medios, deja una conclusión muy clara para todo el ecosistema tecnológico: el mayor riesgo de la IA avanzada no está solo en el modelo en sí, sino en quién tiene las llaves de acceso.

Anthropic ha invertido millones en seguridad interna, pero el acceso se filtró a través de un tercero. La «seguridad por oscuridad» o por exclusividad controlada está demostrando, una vez más, que es una estrategia frágil en 2026.

Si una herramienta existe y es realmente potente, tarde o temprano alguien encontrará la forma de usarla. El desafío real ya no es solo construir IAs más seguras o más capaces, sino repensar completamente cómo protegemos los entornos de desarrollo y las cadenas de suministro en una industria donde el factor humano sigue siendo, con diferencia, la vulnerabilidad más difícil de parchear.

Al final, Mythos no solo nos está mostrando lo lejos que ha llegado la IA en ciberseguridad. También nos recuerda, de la forma más irónica posible, que por muy avanzada que sea la tecnología, siempre dependerá de personas… y las personas, por naturaleza, somos el eslabón más impredecible de todos. La IA puede intentar replicar nuestro comportamiento, pero nuestra naturaleza tiene algunas particularidades que son únicas e irreplicables… aunque también con muchas debilidades.

Anthropic Mythos: El modelo que no se iba a usar, pero alguien consiguió «estrenar»

El eslabón débil y la curiosidad técnica

¿Por qué tanto miedo a Mythos?

Una lección sobre la cadena de suministro

Deja una respuesta Cancelar la respuesta