L'IA Claude d'Anthropic fait face à la colère des utilisateurs après une chute de performance signalée de 67 %

Anthropic fait face à une réaction importante de la part des utilisateurs en entreprise suite aux affirmations selon lesquelles son modèle phare, Claude Opus 4.6, aurait été discrètement « nerfé », ou rendu moins performant, une analyse montrant une réduction de 67 % de la profondeur de raisonnement du modèle pour les tâches de codage complexes. La controverse menace d'éroder la confiance dans la startup valorisée à 380 milliards de dollars, d'autant plus qu'elle est en concurrence avec les offres d'entreprise d'OpenAI et qu'elle se dirigerait vers une introduction en bourse (IPO).

« Lorsque la pensée devient superficielle, le modèle a tendance à prendre l'action la moins coûteuse », a écrit Stella Laurenzo, directrice principale de l'IA chez AMD, dans une analyse GitHub largement diffusée. « Modifier sans lire, s'arrêter avant d'avoir terminé, se déresponsabiliser de ses erreurs et choisir la solution la plus simple, et non la plus correcte. »

Le cœur des plaintes des utilisateurs, qui se sont propagées sur GitHub, Reddit et X, réside dans le fait que Claude est devenu moins fiable pour les flux de travail complexes à étapes multiples pour lesquels il était initialement loué. Une analyse de Laurenzo portant sur plus de 6 800 sessions Claude Code a révélé qu'entre fin février et début mars, le ratio « lectures par modification » du modèle — un indicateur du contexte qu'il prend en compte avant d'écrire du code — a chuté de 6,6 à 2,0. En réponse, Boris Cherny, responsable de Claude Code chez Anthropic, a déclaré que la société n'avait pas secrètement dégradé le modèle, mais avait modifié le niveau d'« effort » par défaut sur « moyen » pour équilibrer l'intelligence, la latence et le coût pour la plupart des utilisateurs.

Cette controverse met en lumière la nature opaque de l'« économie des jetons », où les clients paient pour une unité de traitement d'IA apparemment standard sans garantie sur la qualité de l'intelligence fournie. Alors que le prix des jetons a été divisé par environ 300 en trois ans, les budgets d'IA des entreprises deviennent plus difficiles à contrôler. Une enquête de Mavvrik et Benchmarkit a révélé que 84 % des entreprises signalent que les coûts de l'IA ont érodé les marges brutes plus que prévu, seules 15 % d'entre elles parvenant à limiter la variance budgétaire à moins de 10 %. Le problème est aggravé par des facteurs techniques comme la mise en cache ; une analyse a montré qu'un changement dans le comportement de mise en cache de Claude Code pourrait multiplier les coûts d'entrée par 5,7.

Le problème de la « Shrinkflation »

Au cœur de la révolte des utilisateurs se trouve le sentiment de payer le même prix pour un produit moins performant, un phénomène que certains ont baptisé « shrinkflation de l'IA ». Le problème a pris de l'ampleur après un message viral sur X du développeur Om Patel résumant la baisse perçue comme une chute de 67 % des capacités, faisant écho aux conclusions de l'analyse GitHub de Laurenzo.

Anthropic a riposté, attribuant les changements perçus à des choix de produit et d'interface, et non à une dégradation secrète. Cherny a noté que le 9 février, Opus 4.6 a activé la « pensée adaptative » par défaut, et le 3 mars, le niveau d'effort par défaut a été réglé sur « moyen ». Bien que les utilisateurs du terminal Claude Code puissent régler manuellement l'effort sur « élevé », les utilisateurs Pro et Enterprise sur les autres plateformes ne le peuvent pas. En réponse à la polémique, Cherny a déclaré que l'entreprise testerait le réglage par défaut des utilisateurs Teams et Enterprise sur « effort élevé ».

Une question de confiance et de calcul

Le débat survient alors qu'Anthropic connaît une explosion de la demande, ce qui a conduit à des limites d'utilisation plus strictes pendant les heures de pointe et alimenté les spéculations selon lesquelles l'entreprise pourrait être confrontée à une pénurie de puissance de calcul. Le directeur des revenus d'OpenAI, dans une note interne rapportée, a affirmé qu'Anthropic avait commis une « erreur stratégique » en ne sécurisant pas assez de capacité de calcul. Anthropic a nié dégrader les modèles pour gérer la demande.

La situation crée un fossé de confiance critique pour une entreprise qui s'est présentée comme plus transparente et alignée avec les intérêts des utilisateurs que ses rivaux. Alors qu'Anthropic rivalise avec des offres comme Codex d'OpenAI et envisage une éventuelle IPO, la perception qu'elle réduirait silencieusement la qualité de ses modèles — même pour des raisons d'équilibrage des coûts — pourrait nuire à sa position auprès des développeurs en entreprise qui ont été essentiels à sa croissance. Le défi de l'entreprise est désormais de réconcilier le prix fixe d'un jeton avec la valeur variable de l'« intelligence » qu'il contient.

Cet article est à titre informatif uniquement et ne constitue pas un conseil en investissement.