Opus 4.6 alcanza el objetivo de rendimiento de 2026 con 10 meses de antelación
Ajeya Cotra, una destacada pronosticadora de IA de la agencia de evaluación METR, ha admitido públicamente que el ritmo de avance de la IA está superando incluso sus proyecciones más recientes. En un pronóstico del 14 de enero, Cotra predijo que los modelos de IA más avanzados alcanzarían una tasa de éxito del 50% en tareas de ingeniería de software que requieren una "duración" de 24 horas para finales de 2026. Solo dos meses después, el nuevo modelo Claude Opus 4.6 de Anthropic fue evaluado con una duración de aproximadamente 12 horas, alcanzando el hito casi diez meses antes de lo previsto.
Los datos de rendimiento del conjunto de pruebas de METR revelaron que Opus 4.6 pudo completar al menos parcialmente 14 de las 19 tareas de ingeniería de software que se estimaba que requerirían más de ocho horas para un humano. Cotra afirmó que, con diez meses de desarrollo adicional aún restantes en el año, su predicción anterior de que la IA fallaría la mitad del tiempo en tareas de 24 horas "ya no es creíble".
Investigador asigna un 10% de probabilidad a la automatización completa de la IA en 2024
El rendimiento del modelo obligó a Cotra a reevaluar la probabilidad de que la IA logre una automatización completa de todo el proceso de investigación y desarrollo. Mantuvo una probabilidad del 10% de que un sistema de IA pudiera manejar completamente la ideación e implementación de la investigación, sin ninguna intervención humana, antes de finales de este año. Esta evaluación se mantiene incluso después de que sus colegas consideraran inicialmente que su estimación del 10% era demasiado alta cuando la propuso por primera vez.
Este cambio de perspectiva es significativo, ya que el tono cauteloso de Cotra ha cambiado fundamentalmente. Si bien señaló que la IA aún carece de "juicio de investigación" y "creatividad" a nivel humano, también articuló una nueva incertidumbre impulsada por el progreso acelerado. "Esta es la primera vez", afirmó, "que no puedo encontrar ninguna tendencia estable que pueda extrapolar para decir que no sucederá pronto".
Las ganancias de capacidad superan las métricas de evaluación tradicionales
El poder acelerado de los modelos de IA también está poniendo a prueba los marcos utilizados para medirlos. Cotra señala que el concepto de "duración" se vuelve menos relevante a medida que los agentes de IA son capaces de manejar tareas que superan las 80 horas. Tales proyectos a gran escala son naturalmente adecuados para la descomposición en subtareas más pequeñas y paralelas que pueden ser gestionadas por una IA "gerente" y ejecutadas por otros agentes de IA.
Esta realidad ha impulsado la discusión de nuevos puntos de referencia, como medir el tiempo de calendario requerido para que un gran equipo complete un proyecto en lugar de las horas de una sola persona. Si bien este método de gestión de proyectos impulsado por la IA puede no replicar perfectamente la comprensión intuitiva de los equipos humanos, Cotra cree que podría resultar "sorprendentemente eficaz" para una gran categoría de proyectos de software, lo que hace que los límites superiores de la capacidad de ingeniería de la IA este año sean extremadamente difíciles de estimar.