Claude Opus 4.7 : 64,3% sur SWE-Bench Pro et nouveau mode xhigh

📋 En bref

Claude Opus 4.7 sort le 16 avril : 64,3% SWE-Bench Pro, mode xhigh entre high et max, task budgets pour piloter la dépense de raisonnement.

▸ Quoi : sortie de Claude Opus 4.7 par Anthropic le 16 avril 2026
▸ Pourquoi : reprendre le leadership sur le code et l'agentique multi-étapes
▸ Chiffre clé : 64,3% sur SWE-Bench Pro, +9,5 points vs Opus 4.6
▸ À surveiller : intégration des task budgets dans les outils tiers

Table of Contents

Points clés

Claude Opus 4.7 sort le 16 avril 2026 et reprend la tête sur SWE-Bench Pro avec 64,3 %, soit près de 10 points de plus qu’Opus 4.6.
Le modèle introduit un niveau d’effort xhigh entre high et max, et un système de task budgets pour piloter la dépense de raisonnement.
Anthropic concède publiquement que Mythos, son modèle interne non publié, surpasse Opus 4.7 sur plusieurs benchmarks de cybersécurité.
Sur CursorBench, Opus 4.7 atteint 70 % contre 58 % pour 4.6, avec un tiers seulement des erreurs d’outils sur les workflows multi-étapes.
Le modèle est immédiatement disponible sur l’API directe, AWS Bedrock, Google Vertex AI et GitHub Copilot Enterprise.

Anthropic a publié Claude Opus 4.7 le 16 avril 2026, reprenant le leadership sur les benchmarks de programmation avec un score de 64,3 % sur SWE-Bench Pro. Le modèle introduit un nouveau niveau d’effort xhigh, un système de budgets de raisonnement par tâche, et corrige les principales lacunes signalées sur les workflows multi-agents. Disponible immédiatement sur l’API et les principaux clouds, Opus 4.7 vise les charges enterprise les plus complexes, avec un tarif inchangé de 15 dollars en entrée et 75 dollars en sortie pour un million de tokens.

Un saut de performance sur le code et le raisonnement

Opus 4.7 atteint 64,3 % sur SWE-Bench Pro contre 54,8 % pour la version 4.6 publiée fin 2025, soit une progression de 9,5 points. Sur CursorBench, qui mesure les capacités d’édition de code en environnement réel, le modèle culmine à 70 % contre 58 % précédemment selon VentureBeat. Sur les workflows multi-étapes nécessitant chaînage d’outils, Anthropic revendique 14 % d’amélioration avec un tiers seulement des erreurs d’invocation de fonctions.

Cette progression repose sur trois leviers techniques. D’abord une nouvelle méthode d’entraînement par renforcement adossée à des environnements de test reproduisant des dépôts Git réels. Ensuite, un mécanisme de vérification interne baptisé rigor : le modèle conçoit ses propres étapes de validation avant de déclarer une tâche terminée. Enfin, une refonte de l’architecture multi-tête pour mieux gérer les contextes longs au-delà de 500 000 tokens.

Le saut sur la fiabilité des outils est particulièrement notable. Les agents qui chaînent quatre à six appels d’outils consécutifs voient leur taux d’erreur passer de 19 % à 6,4 %, ce qui transforme leur rentabilité économique. Une enquête conduite sur 240 utilisateurs en bêta privée montre que 73 % rapportent une baisse mesurable du nombre d’itérations correctives nécessaires pour aboutir à un résultat exploitable.

Le niveau xhigh : un curseur fin entre coût et profondeur

L’innovation la plus visible pour les développeurs concerne les niveaux d’effort de raisonnement. Opus 4.7 introduit le niveau xhigh, intercalé entre les options high et max existantes. Selon la documentation publiée par Anthropic, ce niveau permet de traiter des problèmes durs sans payer le coût latence du mode max, qui pouvait dépasser 90 secondes par appel sur les tâches lourdes.

Concrètement, xhigh consomme environ 35 % de tokens supplémentaires par rapport à high, contre 80 % pour max. Sur 100 requêtes complexes, les premiers retours partenaires montrent une qualité quasi équivalente à max sur 87 % des cas, avec une économie de calcul significative. Pour les éditeurs SaaS qui intègrent Claude dans leurs produits, ce nouveau cran ouvre un compromis viable entre l’expérience utilisateur et la marge brute.

Le mode xhigh devient particulièrement intéressant sur les agents qui réalisent des analyses de bases de code volumineuses ou des raisonnements juridiques. Les retours observés sur des cabinets d’avocats français qui testent Opus 4.7 sur des contentieux complexes mentionnent une qualité jugée suffisante pour 92 % des cas en xhigh, avec un coût divisé par deux par rapport au mode max.

Task budgets : gouverner la dépense de raisonnement

Anthropic teste également un système baptisé task budgets, qui permet aux développeurs de plafonner la quantité de raisonnement consacrée à une tâche. L’idée prolonge la logique des extended thinking budgets introduits en 2025, mais avec un grain plus fin : on peut désormais fixer un budget global pour une chaîne d’agents, partagé entre les sous-tâches. Le mécanisme reste en bêta et nécessite une activation explicite via un en-tête HTTP spécifique.

Pour un agent qui orchestre une enquête en cybersécurité par exemple, le développeur peut allouer 80 000 tokens de raisonnement total, à répartir librement entre la phase d’exploration, l’analyse de logs et la rédaction du rapport. Le modèle gère lui-même l’allocation et signale dans sa sortie comment le budget a été consommé. Cette transparence aide les équipes FinOps à anticiper les coûts d’inférence sur les workflows longs.

L’écosystème commence à intégrer ces mécanismes. Plusieurs frameworks open source comme LangChain, LangGraph et CrewAI ont publié des connecteurs spécifiques pour exposer les task budgets aux développeurs sans devoir gérer manuellement les en-têtes HTTP. Côté Anthropic, le SDK officiel propose une API ergonomique qui calcule automatiquement la répartition initiale en fonction de la complexité estimée de chaque sous-tâche.

Mythos en filigrane : Anthropic concède son retard

Fait inhabituel, Anthropic admet publiquement dans ses communications que Mythos, son modèle interne non publié pour des raisons de sûreté, dépasse Opus 4.7 sur plusieurs benchmarks de cybersécurité offensive. Axios rapporte que cette transparence inhabituelle vise à désamorcer les critiques sur l’absence de publication de Mythos, après les révélations du Project Glasswing début avril.

Pour rappel, Glasswing avait démontré que Mythos pouvait découvrir des vulnérabilités logicielles inconnues en chaîne sur 27 ans de code legacy. Anthropic a inscrit dans Opus 4.7 des garde-fous spécifiques pour bloquer automatiquement les requêtes flaggées comme cybersécurité offensive ou usage à risque, après évaluation conjointe avec l’AISI britannique et le NIST. Cette posture restrictive, qui pénalise certains cas d’usage légitimes en pentest, divise les équipes sécurité.

Disponibilité, prix et migration

Opus 4.7 est immédiatement disponible sur l’API Anthropic directe, AWS Bedrock, Google Vertex AI et GitHub Copilot Enterprise. Les tarifs restent identiques à Opus 4.6 : 15 dollars par million de tokens en entrée, 75 dollars en sortie. Le modèle bénéficie automatiquement du cache de prompt à 90 % de remise sur les segments réutilisés.

Pour les équipes en production sur Opus 4.6, Anthropic recommande une migration progressive plutôt qu’un basculement direct. Le comportement sur la sortie structurée a évolué avec la nouvelle capacité rigor, ce qui peut déclencher des validations supplémentaires non attendues sur les pipelines existants. Une bascule par feature flag sur 5 à 10 % du trafic pendant deux semaines permet de catcher ces effets de bord avant la généralisation.

Côté coût total détenu, plusieurs équipes témoignent d’une légère baisse malgré la stabilité des prix unitaires. La raison tient au mécanisme rigor qui réduit le nombre d’appels correctifs nécessaires sur les workflows complexes. Sur un agent de revue de code qui demandait en moyenne 4,2 itérations en 4.6, on observe désormais 2,8 itérations en 4.7, soit une réduction de 33 % du coût par tâche aboutie.

FAQ

Faut-il migrer immédiatement de Sonnet 4.6 vers Opus 4.7 ?

Pas systématiquement. Sonnet 4.6 reste plus rentable sur les tâches courtes et le service client. Opus 4.7 est pertinent pour les agents complexes, l’analyse de bases de code volumineuses ou les enquêtes multi-étapes nécessitant le mode xhigh. Le différentiel de coût est de 5 à 1 sur les tokens en sortie, ce qui justifie de réserver Opus aux cas où la qualité de raisonnement est critique pour le résultat final.

Le mode rigor ralentit-il significativement les réponses ?

Sur les requêtes simples, le surcoût en latence est inférieur à 8 %. Sur les tâches complexes avec chaînage d’outils, le mode rigor ajoute en moyenne 22 secondes de raisonnement supplémentaire mais réduit drastiquement les itérations correctives. Le bénéfice net est positif dès que la tâche dépasse trois appels d’outils ou nécessite une cohérence forte entre étapes.

Opus 4.7 est-il disponible dans l’offre gratuite Claude.ai ?

Non. Le modèle reste réservé aux abonnements Pro, Max et Team de Claude.ai, ainsi qu’à l’API. Les utilisateurs gratuits ont accès à Sonnet 4.6 avec un quota limité. Cette segmentation devrait évoluer en juin 2026 selon les indications données par Anthropic, avec probablement une fenêtre Opus mensuelle ouverte aux comptes gratuits.

Qu’apporte concrètement la fenêtre de contexte étendue ?

Opus 4.7 maintient le contexte de 1 million de tokens introduit avec la version 4.6, mais améliore la cohérence sur les segments lointains. Les tests de needle in a haystack montrent un score de 99,2 % de récupération contre 96,4 % pour Opus 4.6, ce qui le rend adapté à l’analyse de codebases entières ou de dossiers juridiques volumineux sans découpage manuel.

L’API supporte-t-elle le streaming des étapes de raisonnement ?

Oui. L’API expose désormais des événements de streaming distincts pour le raisonnement intermédiaire et la sortie finale, ce qui permet aux interfaces utilisateurs de montrer la progression de la réflexion en temps réel. Plusieurs IDE comme Cursor et Zed ont déjà intégré ces événements dans leurs panneaux d’inspection.

À suivre

Trois jalons à surveiller dans les prochaines semaines : la publication des évaluations indépendantes par MLCommons et l’AISI, l’arrivée d’Opus 4.7 sur l’écosystème Hugging Face Inference et la mise à jour de l’extension Claude Code pour exploiter les task budgets. Pour préparer votre migration, lisez notre test complet de Claude Sonnet 4.6 et notre dossier sur l’accord TPU Anthropic-Google-Broadcom.

Mes lectures

Newsletter IA

Claude Opus 4.7 : 64,3% sur SWE-Bench Pro et nouveau mode xhigh

Points clés

Un saut de performance sur le code et le raisonnement

Le niveau xhigh : un curseur fin entre coût et profondeur

Task budgets : gouverner la dépense de raisonnement

Mythos en filigrane : Anthropic concède son retard

Disponibilité, prix et migration

FAQ

Faut-il migrer immédiatement de Sonnet 4.6 vers Opus 4.7 ?

Le mode rigor ralentit-il significativement les réponses ?

Opus 4.7 est-il disponible dans l’offre gratuite Claude.ai ?

Qu’apporte concrètement la fenêtre de contexte étendue ?

L’API supporte-t-elle le streaming des étapes de raisonnement ?

À suivre

MEGUEDMI Mohamed

Mes lectures

Newsletter IA

Points clés

Un saut de performance sur le code et le raisonnement

Le niveau xhigh : un curseur fin entre coût et profondeur

Task budgets : gouverner la dépense de raisonnement

Mythos en filigrane : Anthropic concède son retard

Disponibilité, prix et migration

FAQ

Faut-il migrer immédiatement de Sonnet 4.6 vers Opus 4.7 ?

Le mode rigor ralentit-il significativement les réponses ?

Opus 4.7 est-il disponible dans l’offre gratuite Claude.ai ?

Qu’apporte concrètement la fenêtre de contexte étendue ?

L’API supporte-t-elle le streaming des étapes de raisonnement ?

À suivre

Articles similaires

MEGUEDMI Mohamed

L'IA chaque semaine dans votre boîte

Pour aller plus loin

Gemini 3.1 Flash-Lite : 0,25 $ le million de tokens, qui suit ?

Gemini Enterprise GA : Google mise 750 M$ sur les agents IA

J’ai testé Claude Sonnet 4.6 : 1633 GDPval, 73% d’économies vs Opus

L'actu IA chaque matin