Claude 4.7 de Anthropic potencia la programación pero reduce el contexto un 46 %

Anthropic ha lanzado Claude Opus 4.7 con puntuaciones líderes en ingeniería de software, pero la recuperación de información en contextos largos (long-context recall) del modelo cayó más de 46 puntos porcentuales, lo que indica un giro estratégico de un rendimiento polivalente hacia herramientas empresariales especializadas.

"Es un Opus 4.6 más inteligente y eficiente", afirmó el CTO de Hex en un comunicado compartido por Anthropic, señalando que "el Opus 4.7 con esfuerzo bajo equivale aproximadamente al Opus 4.6 con esfuerzo medio".

El nuevo modelo obtuvo un 64,3 % en la prueba de programación SWE-bench Pro, un salto significativo respecto al 53,4 % de su predecesor y muy por delante del GPT-5.4 de OpenAI, con un 57,7 %. Sin embargo, en la prueba de referencia de contexto largo MRCR v2, su puntuación se desplomó al 32,2 % desde el 78,3 % del Opus 4.6, consecuencia directa de un nuevo tokenizador que también aumenta el coste real para los usuarios.

Este intercambio sugiere que Anthropic, que según informes opera con una tasa de ingresos anualizados de 30.000 millones de dólares, está priorizando el mercado de programación empresarial y flujos de trabajo de agentes (agentic workflows) de alto margen sobre la costosa carrera por la ventana de contexto más grande. Para los desarrolladores, esto significa una herramienta más potente pero potencialmente más cara y menos adecuada para el análisis de documentos largos, una capacidad en la que antes era líder.

Una actualización focalizada

Opus 4.7 no es una mejora general, sino focalizada. Las ganancias del modelo se concentran en áreas cruciales para los desarrolladores empresariales, un segmento de mercado que llevó a Claude Code a unos ingresos anualizados reportados de 2.500 millones de dólares en febrero. En CursorBench, una prueba que mide el rendimiento en el popular editor de código con IA, Opus 4.7 obtuvo un 70 %, un salto de 12 puntos respecto a su predecesor. Rakuten, un socio inicial, informó que el nuevo modelo resuelve tres veces más tareas de producción que el Opus 4.6.

Las capacidades de visión también experimentaron una mejora sustancial. En la prueba visual XBOW, la precisión de Opus 4.7 saltó al 98,5 % desde el 54,5 % del modelo anterior. Esta mejora, combinada con un aumento del triple en la resolución de imagen, hace que tareas visuales complejas, como leer diagramas densos o capturas de pantalla, sean lo suficientemente fiables para entornos de producción, un requisito clave para los agentes de uso de ordenadores.

Estas mejoras tienen un coste. La capacidad del modelo para recuperar información de documentos grandes —una seña de identidad de las versiones anteriores de Claude— se ha visto gravemente reducida. La caída de 46 puntos en la prueba de contexto largo convierte a Opus 4.7 en un paso atrás significativo para usuarios en campos como el derecho y la investigación que dependen del análisis de textos extensos. Anthropic atribuye el cambio a un nuevo tokenizador, que procesa el texto de forma diferente.

El coste oculto

Aunque Anthropic anunció que no habría cambios en sus precios nominales de 5 dólares por millón de tokens de entrada y 25 dólares por millón de salida, el nuevo tokenizador significa que el mismo texto genera ahora entre 1,0 y 1,35 veces más tokens. Esto, sumado a un nuevo nivel de esfuerzo predeterminado "xhigh" que utiliza más potencia de procesamiento, se traduce en un aumento tangible del coste para muchos usuarios.

El lanzamiento está siendo calificado por algunos como una maniobra estratégica. Anthropic declaró explícitamente que Opus 4.7 es "menos capaz en términos generales" que su modelo más potente, el Claude Mythos Preview (aún no lanzado), que solo está disponible para unos pocos socios como Google y Microsoft para investigación en ciberseguridad. Al degradar capacidades como la recuperación de contexto largo y la búsqueda web, donde Opus 4.7 ahora queda por detrás tanto de GPT-5.4 como de Gemini 3.1 Pro, Anthropic parece estar centrando sus recursos en las aplicaciones comerciales con el camino más claro hacia los ingresos.

Para inversores y clientes empresariales, Opus 4.7 es una señal clara de un mercado de IA que está madurando. La era de perseguir el "modelo más fuerte" en cada prueba de referencia puede estar dando paso a una nueva fase de modelos especializados diseñados para tareas específicas de alto valor. Aunque Opus 4.7 amplía el liderazgo de Anthropic en el lucrativo espacio de la programación y los flujos de trabajo de agentes, sus concesiones deliberadas significan que los clientes ahora deben evaluar los modelos no solo por sus fortalezas, sino por sus debilidades diseñadas.

Este artículo tiene fines informativos únicamente y no constituye asesoramiento de inversión.