GLM-5.1 : le modèle open source chinois qui dépasse Claude Opus 4.6 sur SWE-Bench Pro

📋 En bref

Z.AI publie GLM-5.1, un modèle Mixture-of-Experts de 754 milliards de paramètres qui prend la première place de SWE-Bench Pro et tient huit heures d'exécution autonome.

▸ Une architecture pensée pour l'autonomie longue durée
▸ Licence MIT et déploiement local
▸ Performances mesurées sur les benchmarks de référence
▸ Ce que cela signifie pour les développeurs

Le laboratoire chinois Z.AI a publié le 8 avril 2026 GLM-5.1, un modèle open source de 754 milliards de paramètres qui prend la première place du benchmark SWE-Bench Pro avec un score de 58,4 %. Il devance ainsi Claude Opus 4.6 d’Anthropic (57,3 %) et plusieurs modèles propriétaires de Google et OpenAI.

Table of Contents

Une architecture pensée pour l’autonomie longue durée

GLM-5.1 repose sur une architecture Mixture-of-Experts qui n’active que 40 milliards de paramètres par token, malgré ses 754 milliards au total. Le modèle dispose d’une fenêtre de contexte de 200 000 tokens et peut générer jusqu’à 128 000 tokens en sortie sur une seule requête.

La caractéristique la plus marquante reste sa capacité à maintenir un objectif sur de très longues séquences d’actions. Selon Z.AI, GLM-5.1 peut enchaîner jusqu’à 1 700 étapes et travailler en autonomie pendant huit heures sur une même tâche. Cette persistance constitue un changement de paradigme par rapport aux modèles agentiques de génération précédente, qui décrochaient généralement après quelques dizaines de minutes.

Licence MIT et déploiement local

Z.AI distribue les poids du modèle sous licence MIT sur HuggingFace, ce qui autorise un usage commercial sans restriction. Les principaux frameworks d’inférence open source supportent déjà GLM-5.1 : SGLang, vLLM, xLLM, Transformers et KTransformers. Pour les équipes disposant d’une infrastructure GPU suffisante, le modèle peut donc être déployé en local et fine-tuné sans dépendre d’une API externe.

Performances mesurées sur les benchmarks de référence

Au-delà de SWE-Bench Pro, le modèle se distingue sur trois autres tests qui comptent pour les usages agentiques.

Sur NL2Repo, qui mesure la capacité à générer un dépôt de code complet à partir d’une description en langage naturel, GLM-5.1 dépasse largement son prédécesseur GLM-5. Sur Terminal-Bench 2.0, qui simule des tâches réelles en ligne de commande, il affiche le meilleur score parmi les modèles ouverts. Sur les benchmarks de raisonnement classique en revanche, l’écart avec Claude Opus 4.6 et GPT-5.4 reste plus mince.

Ce que cela signifie pour les développeurs

GLM-5.1 confirme que l’écart entre modèles ouverts et propriétaires se referme rapidement sur les tâches d’ingénierie logicielle. Pour la première fois, un modèle dont les poids sont librement téléchargeables prend la tête d’un benchmark majeur, et le fait avec une marge mesurable. Les équipes qui hésitaient à confier leurs codes sources à une API externe disposent désormais d’une alternative crédible.

Le modèle est accessible via l’API officielle Z.AI, mais aussi via plusieurs revendeurs tiers comme APIYI. Pour un déploiement on-premise, comptez plusieurs cartes H100 ou équivalent pour faire tourner le modèle quantifié dans des conditions raisonnables.

Le contexte concurrentiel

Cette sortie intervient dans une fenêtre où l’open source chinois multiplie les annonces : DeepSeek, Qwen et désormais Z.AI publient à un rythme soutenu et alignent leurs modèles sur les standards des laboratoires américains. Pour les entreprises européennes, GLM-5.1 ouvre une troisième voie entre les fournisseurs américains et les rares modèles européens comme Mistral.

Reste une question de souveraineté : héberger le modèle en local résout les enjeux de confidentialité, mais la provenance chinoise des poids continuera d’inquiéter certains secteurs régulés.