Opus 4.6 atteint l'objectif de performance de 2026 avec 10 mois d'avance
Ajeya Cotra, prévisionniste de premier plan en IA et membre de l'agence d'évaluation METR, a publiquement admis que le rythme d'avancement de l'IA dépassait même ses projections les plus récentes. Dans une prévision du 14 janvier, Cotra avait estimé que les modèles d'IA les plus avancés atteindraient un taux de réussite de 50 % sur des tâches d'ingénierie logicielle nécessitant une « durée » de 24 heures d'ici la fin de 2026. Seulement deux mois plus tard, le nouveau modèle Claude Opus 4.6 d'Anthropic a été évalué avec une durée d'environ 12 heures, franchissant le jalon près de dix mois avant la date prévue.
Les données de performance de l'ensemble de tests METR ont révélé qu'Opus 4.6 pouvait au moins partiellement compléter 14 des 19 tâches d'ingénierie logicielle estimées nécessiter plus de huit heures pour un humain. Cotra a déclaré qu'avec dix mois de développement supplémentaires restant dans l'année, sa prédiction antérieure selon laquelle l'IA échouerait la moitié du temps sur les tâches de 24 heures n'est "plus crédible".
Le chercheur attribue une probabilité de 10 % à l'automatisation complète de l'IA en 2024
La performance du modèle a contraint Cotra à réévaluer la probabilité que l'IA parvienne à une automatisation complète de l'ensemble du processus de recherche et développement. Elle a maintenu une probabilité de 10 % qu'un système d'IA puisse gérer entièrement l'idéation et la mise en œuvre de la recherche, sans aucune implication humaine, avant la fin de cette année. Cette évaluation perdure même si ses collègues avaient initialement jugé son estimation de 10 % trop élevée lorsqu'elle l'a proposée pour la première fois.
Ce changement de perspective est significatif, car le ton prudent de Cotra a fondamentalement changé. Tout en notant que l'IA manque encore de « jugement en recherche » et de « créativité » au niveau humain, elle a également articulé une nouvelle incertitude engendrée par les progrès accélérés. « C'est la première fois, » a-t-elle déclaré, « que je ne peux trouver aucune tendance stable que je puisse extrapoler pour dire que cela ne se produira pas bientôt. »
Les gains de capacités dépassent les métriques d'évaluation traditionnelles
La puissance accélérée des modèles d'IA met également à l'épreuve les cadres utilisés pour les mesurer. Cotra note que le concept de « durée » devient moins pertinent à mesure que les agents d'IA deviennent capables de gérer des tâches dépassant 80 heures. De tels projets à grande échelle se prêtent naturellement à la décomposition en sous-tâches plus petites et parallèles qui peuvent être gérées par une IA « gestionnaire » et exécutées par d'autres agents d'IA.
Cette réalité a suscité des discussions sur de nouveaux repères, tels que la mesure du temps calendaire nécessaire à une grande équipe pour achever un projet plutôt que des heures individuelles. Bien que cette méthode de gestion de projet pilotée par l'IA ne reproduise peut-être pas parfaitement la compréhension intuitive des équipes humaines, Cotra estime qu'elle pourrait s'avérer « étonnamment efficace » pour une grande catégorie de projets logiciels, rendant les limites supérieures de la capacité d'ingénierie de l'IA cette année extrêmement difficiles à estimer.