Un rapport accablant d'un directeur IA d'AMD affirme que l'IA Claude Code d'Anthropic a subi une dégradation systématique de ses performances depuis février, avec une « profondeur de réflexion » chutant de 67 % et provoquant une explosion des coûts API par 122 pour une équipe. L'analyse, publiée sur GitHub, a déclenché une tempête au sein de la communauté des développeurs, remettant en question la fiabilité de l'assistant de codage IA et augmentant la pression sur le concurrent Codex d'OpenAI.
« On ne peut plus faire confiance à Claude pour effectuer des tâches d'ingénierie complexes », a déclaré Stella Laurenzo, une responsable de l'équipe IA d'AMD, dans le rapport publié sur GitHub. Elle a averti que son équipe était passée à d'autres prestataires de services et que « les autres concurrents doivent être pris très au sérieux et évalués » dès maintenant.
L'analyse de Laurenzo s'appuie sur 6 852 journaux de session, révélant un net déclin des performances. La profondeur de réflexion médiane du modèle, une mesure de son processus de raisonnement, est tombée d'environ 2 200 caractères début février à seulement 720 caractères à la fin du mois. Cet effondrement du raisonnement s'est accompagné d'une réduction de 70 % de l'effort de recherche avant l'écriture du code, le ratio « lecture-modification » du modèle passant de 6,6 à 2,0. Cela a entraîné une flambée des erreurs, le modèle tentant de modifier le code sans lire les fichiers concernés dans une modification sur trois.
La baisse de performance a eu des conséquences financières catastrophiques. L'équipe de Laurenzo a vu sa facture API mensuelle estimée, basée sur les tarifs de Bedrock Opus, bondir de 345 $ à 42 121 $ — une multiplication par 122 — tout en produisant de moins bons résultats. L'équipe a été contrainte d'arrêter tout son cluster d'agents. Le rapport suggère que cette dégradation coïncide avec l'introduction par Anthropic d'une fonctionnalité de « pensée adaptative » et d'un changement du réglage d'« effort » par défaut de élevé à moyen.
Anthropic répond, la communauté reste sceptique
Un membre de l'équipe Claude Code, identifié sous le nom de Boris, a répondu en affirmant que les changements n'étaient pas destinés à dégrader la logique sous-jacente du modèle. Il a expliqué que la fonction permettant de masquer le processus de réflexion du modèle était un changement d'interface utilisateur et que les utilisateurs pouvaient revenir manuellement à un réglage d'« effort » plus élevé. Cependant, de nombreux développeurs ne sont pas convaincus, affirmant que même avec le réglage d'effort le plus élevé, les performances du modèle restent insuffisantes. « Le problème va bien au-delà du simple passage du niveau de réflexion par défaut à moyen », a commenté un utilisateur sur Hacker News.
Les développeurs cherchent des alternatives
L'incident a poussé de nombreux développeurs à abandonner la plateforme, certains déclarant publiquement qu'ils étaient passés à des alternatives comme Codex d'OpenAI ou des modèles open-source comme Qwen3.5-27b. En guise de solution temporaire, certains utilisateurs autorisent explicitement le modèle à éditer des fichiers et décomposent les tâches complexes en morceaux plus petits et plus digestes. Le rapport de Laurenzo appelle à plus de transparence de la part d'Anthropic, notamment en exposant les thinking_tokens dans la réponse API afin que les utilisateurs puissent surveiller eux-mêmes la profondeur de raisonnement du modèle.
Cet article est uniquement à titre informatif et ne constitue pas un conseil en investissement.