La profundidad de razonamiento de Claude Code de Anthropic cae un 67%

Un informe condenatorio de un director de IA de AMD alega que la IA Claude Code de Anthropic ha experimentado una degradación sistemática de su rendimiento desde febrero, con su "profundidad de pensamiento" cayendo en picado un 67% y causando una explosión de 122 veces en los costos de API para un equipo. El análisis, publicado públicamente en GitHub, ha provocado una tormenta en la comunidad de desarrolladores, cuestionando la fiabilidad del asistente de codificación de IA y presionando a su competidor Codex de OpenAI.

"No se ha podido confiar en Claude para realizar tareas de ingeniería complejas", afirmó Stella Laurenzo, líder del equipo de IA de AMD, en el informe del problema en GitHub. Advirtió que su equipo ha cambiado a otros proveedores de servicios y que "otros competidores deben ser tomados muy en serio y evaluados" ahora.

El análisis de Laurenzo se basa en 6.852 registros de sesiones, revelando un fuerte declive en el rendimiento. La mediana de la profundidad de pensamiento del modelo, una medida de su proceso de razonamiento, cayó de aproximadamente 2.200 caracteres a principios de febrero a solo 720 caracteres a finales de mes. Este colapso en el razonamiento fue acompañado por una reducción del 70% en el esfuerzo de investigación antes de escribir código, con la relación "lectura-modificación" del modelo cayendo de 6,6 a 2,0. Esto provocó un aumento de los errores, con el modelo intentando modificar el código sin leer los archivos relevantes primero en una de cada tres ediciones.

La caída del rendimiento tuvo implicaciones de costos catastróficas. El equipo de Laurenzo vio cómo su factura mensual estimada de API, basada en los precios de Bedrock Opus, aumentaba de 345 dólares a 42.121 dólares (un incremento de 122 veces) mientras producía peores resultados. El equipo se vio obligado a cerrar todo su clúster de agentes. El informe sugiere que la degradación coincide con la introducción por parte de Anthropic de una función de "pensamiento adaptativo" y un cambio en la configuración predeterminada de "esfuerzo" de alto a medio.

Anthropic responde, la comunidad se muestra escéptica

Un miembro del equipo de Claude Code, identificado como Boris, respondió afirmando que los cambios no tenían la intención de degradar la lógica subyacente del modelo. Explicó que una función para ocultar el proceso de pensamiento del modelo era un cambio en la interfaz de usuario y que los usuarios podían volver manualmente a una configuración de "esfuerzo" más alta. Sin embargo, muchos desarrolladores de la comunidad siguen sin estar convencidos, afirmando que incluso con la configuración de esfuerzo más alta, el rendimiento del modelo sigue siendo deficiente. "El problema es mucho más que el simple cambio del nivel de pensamiento predeterminado a medio", comentó un usuario en Hacker News.

Los desarrolladores buscan alternativas

El incidente ha llevado a muchos desarrolladores a abandonar la plataforma, y algunos han declarado públicamente que se han pasado a alternativas como Codex de OpenAI o modelos de código abierto como Qwen3.5-27b. Como solución temporal, algunos usuarios están autorizando explícitamente al modelo para editar archivos y dividiendo las tareas complejas en fragmentos más pequeños y manejables. El informe de Laurenzo pide más transparencia por parte de Anthropic, incluyendo la exposición de thinking_tokens en la respuesta de la API para que los usuarios puedan monitorear la profundidad de razonamiento del modelo por sí mismos.

Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.