Claude 4.7 d'Anthropic booste le codage mais réduit le contexte de 46 %

Anthropic a publié Claude Opus 4.7 avec des scores de pointe en ingénierie logicielle, mais le rappel en long contexte du modèle a chuté de plus de 46 points de pourcentage, signalant un virage stratégique délaissant la performance polyvalente au profit d'outils d'entreprise spécialisés.

"C'est un Opus 4.6 plus intelligent et plus efficace", a déclaré le CTO de Hex dans un communiqué partagé par Anthropic, notant que "l'Opus 4.7 à faible effort est à peu près équivalent à l'Opus 4.6 à effort moyen."

Le nouveau modèle obtient un score de 64,3 % au test de codage SWE-bench Pro, un bond significatif par rapport aux 53,4 % de son prédécesseur et bien devant le GPT-5.4 d'OpenAI à 57,7 %. Cependant, sur le benchmark de long contexte MRCR v2, son score s'est effondré à 32,2 % contre 78,3 % pour l'Opus 4.6, conséquence directe d'un nouveau tokenizer qui augmente également le coût effectif pour les utilisateurs.

Ce compromis suggère qu'Anthropic, dont le taux de revenus annualisés atteindrait 30 milliards de dollars, donne la priorité au marché du codage d'entreprise et des flux de travail agentiques (agentic workflow) à forte marge, plutôt qu'à la course coûteuse à la plus grande fenêtre de contexte. Pour les développeurs, cela signifie un outil plus puissant mais potentiellement plus coûteux, moins adapté à l'analyse de documents longs, une capacité où l'entreprise était autrefois leader.

Une mise à niveau ciblée

L'Opus 4.7 n'est pas une amélioration globale, mais ciblée. Les gains du modèle se concentrent dans des domaines cruciaux pour les développeurs d'entreprise, un segment de marché qui a porté Claude Code à un revenu annualisé rapporté de 2,5 milliards de dollars en février. Sur CursorBench, un test mesurant la performance dans l'éditeur de code IA populaire, l'Opus 4.7 a obtenu 70 %, soit un bond de 12 points par rapport à son prédécesseur. Rakuten, un partenaire de la première heure, a rapporté que le nouveau modèle résout trois fois plus de tâches de production que l'Opus 4.6.

Les capacités de vision ont également bénéficié d'une mise à niveau substantielle. Sur le benchmark visuel XBOW, la précision de l'Opus 4.7 a bondi à 98,5 %, contre 54,5 % pour le modèle précédent. Cette amélioration, combinée à un triplement de la résolution d'image, rend les tâches visuelles complexes comme la lecture de diagrammes denses ou de captures d'écran suffisamment fiables pour les environnements de production, une exigence clé pour les agents d'utilisation informatique.

Ces améliorations ont un coût. La capacité du modèle à rappeler des informations à partir de documents volumineux — une marque de fabrique des versions précédentes de Claude — a été sévèrement réduite. La chute de 46 points sur le benchmark de long contexte fait de l'Opus 4.7 un recul significatif pour les utilisateurs de secteurs comme le droit et la recherche qui comptent sur l'analyse de textes étendus. Anthropic attribue ce changement à un nouveau tokenizer, qui traite le texte différemment.

Le coût caché

Bien qu'Anthropic n'ait annoncé aucun changement de sa tarification nominale de 5 $ par million de tokens en entrée et 25 $ par million en sortie, le nouveau tokenizer signifie que le même texte génère désormais entre 1,0 et 1,35 fois plus de tokens. Ceci, combiné à un nouveau niveau d'effort par défaut "xhigh" qui utilise plus de puissance de calcul, entraîne une augmentation tangible des coûts pour de nombreux utilisateurs.

Cette sortie est perçue par certains comme un pari stratégique. Anthropic a explicitement déclaré que l'Opus 4.7 est "moins largement capable" que son modèle le plus puissant, le Claude Mythos Preview non encore publié, qui n'est accessible qu'à une poignée de partenaires comme Google et Microsoft pour la recherche en cybersécurité. En dégradant des capacités comme le rappel en long contexte et la recherche web, où l'Opus 4.7 est désormais devancé par GPT-5.4 et Gemini 3.1 Pro, Anthropic semble concentrer ses ressources sur les applications commerciales ayant le chemin le plus clair vers les revenus.

Pour les investisseurs et les clients entreprises, l'Opus 4.7 est un signal clair de la maturation du marché de l'IA. L'ère de la poursuite du "modèle le plus fort" sur chaque benchmark pourrait céder la place à une nouvelle phase de modèles spécialisés conçus pour des tâches spécifiques à haute valeur ajoutée. Alors que l'Opus 4.7 renforce l'avance d'Anthropic dans l'espace lucratif du codage et des flux de travail agentiques, ses compromis délibérés signifient que les clients doivent désormais évaluer les modèles non seulement sur leurs forces, mais aussi sur leurs faiblesses programmées.

Cet article est à titre informatif uniquement et ne constitue pas un conseil en investissement.