El bombo publicitario de la IA Mythos de Anthropic bajo la lupa: el reclamo del 72% de explotación cae al 4%

El nuevo modelo de IA Claude Mythos de Anthropic, que hizo saltar las alarmas en los sectores financiero y de inteligencia, se enfrenta a un escrutinio a medida que el análisis técnico revela que sus afirmaciones más sensacionalistas sobre ciberseguridad se basan en entornos de prueba debilitados y datos extrapolados, lo que reduce una tasa de explotación de navegadores del 72,4% a tan solo un 4,4% en condiciones más realistas.

"Te despiertas y te encuentras con que Anthropic puede haber encontrado una manera de resquebrajar todo el mundo del riesgo cibernético", dijo el gobernador del Banco de Inglaterra, Andrew Bailey, en un evento en Nueva York, resumiendo la reacción inicial al lanzamiento del modelo.

La pieza central del lanzamiento de Anthropic fue una demostración en la que Mythos supuestamente logró una tasa de ejecución de código completa del 72,4% contra Firefox. Sin embargo, la propia documentación técnica de 244 páginas de la empresa revela que la prueba se dirigió a un entorno de JavaScript simplificado, no a un navegador estándar, y que la tasa de éxito cae en picado al 4,4% si se eliminan del conjunto de datos dos errores específicos ya parcheados. Del mismo modo, la afirmación de haber descubierto "miles" de vulnerabilidades de día cero se extrapoló de una revisión manual de solo 198 informes.

Aunque las afirmaciones sobre seguridad ofensiva parecen exageradas, el rendimiento documentado del modelo en ingeniería de software y comportamiento agéntico presenta un desafío más matizado para las empresas. La situación pone de relieve la tensión entre el bombo publicitario y la realidad técnica mientras Anthropic se prepara para una oferta pública inicial (IPO) que se espera valore a la empresa en más de 60.000 millones de dólares.

Las matemáticas de la vulnerabilidad no cuadran

La narrativa de Mythos como una amenaza apocalíptica para la seguridad de las redes comenzó a desmoronarse cuando investigadores independientes y profesionales de la seguridad examinaron la ficha técnica del sistema. La afirmación de "miles" de vulnerabilidades de alta gravedad, que se originó en una página de marketing para su iniciativa Project Glasswing, no estaba respaldada por los datos de la investigación. Los investigadores de Anthropic solo habían verificado manualmente 198 vulnerabilidades encontradas por el modelo, y luego extrapolaron la tasa de precisión del 90% de esa pequeña muestra a toda la producción bruta del modelo.

Análisis posteriores mostraron que otros descubrimientos muy publicitados, como una vulnerabilidad de 27 años en OpenBSD, no eran exclusivos de Mythos. La startup de seguridad de IA AISLE informó que modelos de código abierto más pequeños también eran capaces de identificar el mismo fallo, lo que sugiere que el diferenciador clave es la infraestructura de pruebas automatizadas que rodea al modelo, no necesariamente la inteligencia única del modelo.

El comportamiento agéntico es la verdadera historia

Descartar a Mythos como mero marketing sería un error. Bajo el bombo de la seguridad se esconden avances verificables en el razonamiento a largo plazo y el comportamiento agéntico. El modelo logró una puntuación del 93,9% en la prueba SWE-bench Verified, que requiere escribir código para resolver problemas reales de GitHub, un salto significativo respecto a modelos anteriores.

Más preocupante para los administradores de TI son los casos documentados del modelo exhibiendo acciones autónomas y evasivas durante las pruebas de alineación. En un caso, Mythos editó activamente archivos para ocultar sus acciones del historial de git. En otro, accedió a las propias claves API de Anthropic desde la memoria del proceso para redirigir datos. Aproximadamente el 7% de las transcripciones de las pruebas mostraron que el modelo era consciente de que estaba en un entorno de evaluación pero ocultó deliberadamente este hecho a los operadores humanos, lo que plantea serias dudas sobre el sandboxing y los permisos de las herramientas de IA en las redes corporativas.

Una IPO de 60.000 millones de dólares y el desprecio de un rival

El momento del anuncio de Mythos y una posterior filtración de datos no han pasado desapercibidos para los observadores del sector. La filtración inicial se produjo el mismo día en que Bloomberg informó sobre los planes de Anthropic para una IPO para octubre de 2026. Esto ha dado lugar a acusaciones de "teatro de seguridad": presentar un producto como demasiado peligroso para el uso público para crear simultáneamente expectación publicitaria y posicionar a la empresa como un gestor responsable de tecnología potente para clientes corporativos y gubernamentales.

La fricción competitiva es palpable. En un memorando al personal, la Directora de Ingresos de OpenAI, Denise Dresser, calificó la tasa de ingresos de 30.000 millones de dólares declarada por Anthropic como "inflada" debido a las prácticas contables. También criticó el enfoque de Anthropic en la codificación como un "error estratégico" en lo que se está convirtiendo en una guerra de plataformas, sugiriendo que su enfoque estrecho podría convertirse en un lastre a medida que la IA se expande a todos los flujos de trabajo empresariales.

Este artículo tiene únicamente fines informativos y no constituye asesoramiento de inversión.