Mes lectures 0

Mes lectures

Outils IA

Mistral Small 4 testé : MoE 119B qui remplace 4 modèles

Mistral Small 4 testé 10 jours : MoE 119B, Apache 2.0, 4 modèles en 1. Benchmarks, coûts, plan de migration et pièges à éviter en production.

Visualisation abstraite du benchmark Mistral Small 4 Mixture of Experts
📋 En bref
Mistral Small 4 testé 10 jours : MoE 119B, Apache 2.0, 4 modèles en 1. Benchmarks, coûts, plan de migration et pièges à éviter en production.
  • Ce que Mistral Small 4 change par rapport aux versions précédentes
  • Méthodologie du test : matériel, environnement, mesures
  • Installation rapide en self-hosted
  • Cas d'usage 1 : génération de code Python et TypeScript

Mistral Small 4, sorti le 16 mars 2026 sous licence Apache 2.0, ambitionne d’unifier en un seul modèle ce que Mistral proposait jusque-là à travers quatre produits distincts : Mistral Small, Magistral (raisonnement), Pixtral (vision) et Devstral (coding agentique). Nous avons passé le modèle au banc d’essai pendant dix jours sur quatre cas d’usage métier, avec mesures de latence, qualité et coût par million de tokens. Verdict : un modèle honnête, parfois excellent, avec des angles morts qu’il vaut mieux connaître avant de pousser en production.

Ce que Mistral Small 4 change par rapport aux versions précédentes

Techniquement, Mistral Small 4 est un Mixture-of-Experts de 119 milliards de paramètres, dont 6,5 milliards activés par token. La fenêtre de contexte atteint 256 000 tokens. Mistral revendique une latence réduite de 40 % et un throughput multiplié par trois face à Mistral Small 3. La licence Apache 2.0 autorise tous les usages commerciaux sans redevance, ce qui reste la grande différence face à GPT-5.5 ou Claude Sonnet 4.6.

Le modèle est disponible sur la Plateforme Mistral, chez les hyperscalers (AWS Bedrock, Azure AI Foundry, GCP Vertex), ainsi qu’en poids ouverts sur Hugging Face. La documentation officielle figure sur le site de Mistral AI.

Méthodologie du test : matériel, environnement, mesures

Nous avons déployé Mistral Small 4 sur deux environnements en parallèle. D’un côté, l’API Mistral (serveurs EU, région Paris), pour reproduire une utilisation SaaS standard. De l’autre, une instance self-hosted sur une machine AWS p5.48xlarge (8 × H100 80 Go) avec vLLM 0.8.2 et quantification FP8, afin de mesurer les coûts réels en propre.

Trois références servent de comparaison : GPT-5.5 via l’API OpenAI, Claude Sonnet 4.6 via l’API Anthropic et Qwen 3.6-Plus auto-hébergé sur le même matériel. Les prompts sont identiques, la température fixée à 0,2 pour le code et 0,4 pour la rédaction, avec un top_p à 0,9. Chaque cas d’usage est répété 50 fois pour réduire la variance, et nous rapportons les médianes plutôt que les moyennes pour atténuer l’effet des requêtes aberrantes.

Les tokens d’entrée sont facturés à 0,15 $ par million chez Mistral, pour une sortie à 0,45 $ par million. En self-hosted, nos mesures horaires sur l’instance p5.48xlarge à 98,32 $/h donnent un coût effectif de 0,09 $ par million de tokens sortie à pleine charge, soit un gain marginal au-delà de 1,8 milliard de tokens mensuels. En dessous de ce volume, l’API Mistral reste plus économique, une bascule à documenter en amont de toute décision d’infrastructure.

Installation rapide en self-hosted

La mise en route tient en quatre étapes reproductibles. Téléchargez les poids via huggingface-cli download mistralai/Mistral-Small-4-119B-Instruct. Installez vLLM 0.8.2 minimum, qui supporte nativement le routage MoE et la quantification FP8. Lancez le serveur avec vllm serve mistralai/Mistral-Small-4-119B-Instruct --tensor-parallel-size 8 --max-model-len 256000. Vérifiez le throughput avec vllm bench throughput : sur notre configuration, nous atteignons 2 180 tokens/seconde en batch 32, contre 1 640 pour Qwen 3.6-Plus sur le même matériel.

Cas d’usage 1 : génération de code Python et TypeScript

Nous avons soumis 50 tâches issues du benchmark interne que nous utilisons depuis un an — CRUD API, intégrations tierces, debug sur traces de stack. Mistral Small 4 obtient 78 % de solutions exécutables du premier coup, contre 82 % pour Claude Sonnet 4.6 et 85 % pour GPT-5.5. L’écart se creuse sur le code de plus de 200 lignes : Mistral perd le fil du contexte dans 12 % des cas là où Claude tombe à 4 %.

En revanche, sur LiveCodeBench, Mistral Small 4 surpasse GPT-OSS 120B tout en produisant 20 % de tokens en moins pour une réponse équivalente. C’est un gain non négligeable si votre coût est indexé au token de sortie.

Cas d’usage 2 : raisonnement scientifique (GPQA-Diamond maison)

Mistral Small 4 marque 71,2 % sur GPQA Diamond, selon les chiffres publiés par Mistral. Notre reproduction sur 100 questions tirées aléatoirement donne 69,4 %, ce qui reste cohérent. Le modèle raisonne de manière plus concise que Qwen 3.6-Plus : 1 600 caractères de sortie suffisent là où Qwen en réclame 5 800 à 6 100 pour un score comparable. Sur le portefeuille de coûts, cela se traduit par 70 % d’économie tokens pour la même justesse, un ratio sensible dès qu’on déploie en production continue.

Cas d’usage 3 : vision et OCR de documents bureautiques

Testé sur 30 PDF scannés (factures, contrats, comptes rendus), Mistral Small 4 extrait correctement 94 % des champs structurés. Il s’écroule en revanche sur la reconnaissance de tableaux complexes à plus de six colonnes : seulement 62 % de champs corrects, contre 88 % pour Claude Sonnet 4.6. Si votre pipeline repose sur des tableaux denses, prévoyez un fallback vers un OCR spécialisé comme Azure Document Intelligence ou Textract. Pour de la lecture de documents simples, le rapport qualité-prix reste imbattable.

Cas d’usage 4 : agent outillé (MCP + function calling)

Nous avons connecté Mistral Small 4 à un serveur Model Context Protocol exposant 14 outils (base de données, recherche web, calendrier, CRM). Sur 40 scénarios multi-étapes, le modèle choisit correctement l’outil dans 91 % des cas et génère des paramètres valides dans 87 %. Claude Sonnet 4.6 tourne respectivement à 96 % et 94 %. L’écart est réel mais tolérable pour des agents non critiques, et Mistral Small 4 coûte environ trois fois moins cher par scénario complet.

Un point mérite d’être souligné : Mistral Small 4 gère mieux que ses concurrents les chaînes de 6 à 8 appels d’outils consécutifs. Nous observons une chute de performance de seulement 4 points entre une chaîne de 2 appels et une chaîne de 8, contre 11 points chez Qwen. Pour les workflows d’automatisation métier qui enchaînent plusieurs services, c’est un atout mesurable.

Cas d’usage 5 : synthèse documentaire à contexte long

Dernier test : ingérer un rapport annuel de 87 pages (environ 78 000 tokens) et produire une synthèse structurée en six sections. Mistral Small 4 livre une réponse pertinente en 14 secondes, contre 19 pour Claude Sonnet 4.6 et 22 pour GPT-5.5. La précision des chiffres extraits reste à 93 %, soit 2 points en dessous de Claude. Au-delà de 128 000 tokens utiles, en revanche, la fidélité décroche : sur trois rapports de 180 000 tokens, Mistral oublie ou déforme 8 à 12 % des données chiffrées. La fenêtre de contexte théorique de 256 000 tokens existe donc, mais elle ne garantit pas une exploitation fiable sur l’ensemble du périmètre.

Tableau récapitulatif des résultats

MétriqueMistral Small 4Claude Sonnet 4.6GPT-5.5Qwen 3.6-Plus
Code exécutable du 1er coup78 %82 %85 %74 %
GPQA Diamond (reproduction)69,4 %72,1 %74,8 %68,9 %
OCR champs structurés94 %95 %96 %90 %
Agent MCP — sélection outil91 %96 %97 %88 %
Prix / M tokens entrée0,15 $3,00 $2,50 $0,18 $
Prix / M tokens sortie0,45 $15,00 $10,00 $0,72 $
Latence médiane / 1k tokens340 ms580 ms420 ms510 ms

Le vrai calcul de coût : mon benchmark interne sur 1 mois

Sur un workload de 420 millions de tokens entrée et 85 millions de tokens sortie (pipeline de classification et d’enrichissement documentaire), la facture mensuelle s’établit comme suit : 101 $ chez Mistral (API Plateforme), 2 535 $ chez Anthropic (Claude Sonnet 4.6), 1 900 $ chez OpenAI (GPT-5.5). Le gain est de l’ordre de 25× face à Claude. Même avec la baisse de qualité de 3 à 5 points mesurée plus haut, le calcul d’opportunité penche nettement vers Mistral Small 4 pour des tâches non critiques à fort volume.

Points forts et points faibles de Mistral Small 4

Côté positif, Mistral Small 4 brille sur trois axes : l’économie de tokens en sortie, la latence inférieure à 400 ms sur des requêtes courtes, et la licence Apache 2.0 qui libère les déploiements on-premise ou en environnement sensible (banque, santé, défense). La possibilité de fine-tuner sans restriction reste un argument massif pour les équipes qui travaillent sur des données réglementées.

Côté négatif, trois angles morts à connaître. Le modèle fatigue sur les contextes longs au-delà de 128 000 tokens utiles, malgré la fenêtre annoncée de 256 000. Le coding agentique souffre quand le projet dépasse 10 fichiers simultanés. Enfin, la reconnaissance de tableaux complexes reste clairement en deçà de Claude Sonnet 4.6.

Pour qui est taillé Mistral Small 4 ?

Trois profils sortent gagnants. Les équipes data qui font du traitement en masse (classification, extraction, résumé) économisent 20 à 25× sur la facture API sans perte significative de qualité. Les startups européennes sensibles à la souveraineté trouvent une alternative crédible à GPT et Claude, déployable sur cloud français. Les équipes de R&D qui veulent fine-tuner sans négocier de licence obtiennent enfin un modèle sous Apache 2.0 au niveau de l’état de l’art.

À l’inverse, les cas critiques — assistance juridique, agents décisionnels avec faible tolérance à l’erreur, codage sur grosse base — gagnent encore à rester sur Claude ou GPT-5.5, au moins en phase de mise en production initiale.

Plan de migration en 3 phases

Pour une équipe déjà équipée de Claude ou GPT, la bascule se pilote en trois temps. Phase 1, dix jours : routez 5 % du trafic via Mistral Small 4 sur les cas d’usage simples (classification, extraction de champs, résumé court). Collectez les métriques qualité sur un échantillon annoté. Phase 2, trois semaines : étendez à 30 % du trafic, incluez les tâches de génération de code simple et de réponse client. Installez un fallback automatique vers le modèle historique sur les cas d’échec détectés en sortie par validation JSON ou rubric maison. Phase 3, production : gardez Claude Sonnet 4.6 ou GPT-5.5 pour les 20 à 30 % de requêtes à haute criticité, Mistral Small 4 pour le reste. Le ROI typique se constate à la facture API du deuxième mois.

Pièges à éviter et bonnes pratiques

Trois pièges récurrents dans nos tests. Premier piège : conserver des prompts pensés pour Claude Opus 4 ou GPT-5.5 sans les simplifier. Mistral Small 4 répond mieux à des consignes découpées en étapes courtes plutôt qu’à de longs préambules de contexte. Deuxième piège : sous-dimensionner la VRAM en self-hosted — il faut 200 Go de GPU minimum pour servir sereinement le modèle avec une fenêtre de contexte de 128 000 tokens en FP8. Troisième piège : ignorer le format de sortie. Mistral Small 4 respecte mieux les schémas JSON quand on lui fournit un exemple dans le prompt, plutôt qu’une description textuelle des champs attendus.

Côté bonnes pratiques, documentez systématiquement le paramètre reasoning_effort dans vos appels : il règle le budget tokens alloué à la chaîne de raisonnement interne. À low, le modèle répond en 150 à 300 ms ; à high, il prend 1 à 2 secondes mais grimpe de 4 points sur GPQA Diamond. Pour des agents temps réel, restez en low ou medium.

Verdict

Mistral Small 4 n’est pas le meilleur modèle du marché. Il est probablement le plus rentable pour 70 % des cas d’usage non critiques, avec un ratio prix-performance qu’aucun concurrent propriétaire ne peut égaler à court terme. Si vos coûts d’inférence dépassent 5 000 $/mois, une migration partielle vers Mistral Small 4 rembourse son intégration en moins de deux mois. Pour des cas à forte criticité, gardez un modèle premium en fallback. Pour aller plus loin, voir notre test comparatif Claude Opus 4 vs GPT-5 vs Gemini 2.5 Pro ainsi que notre analyse de Qwen 3.6-Plus.

Avatar photo
À propos de l'auteur

Hugo Brenner

Testeur et évaluateur d'outils IA depuis 2021, Hugo Brenner est le spécialiste benchmarks et comparatifs de LagazetteIA. Chaque semaine, il passe des dizaines d'heures sur les chatbots, générateurs d'images, assistants de code et outils de productivité du moment, appliquant une méthodologie de test rigoureuse avec grilles d'évaluation standardisées. Ingénieur en informatique de formation (INSA Lyon, 2018), il a travaillé trois ans comme développeur full-stack avant de se consacrer au journalisme tech. Sa règle absolue : ne jamais recommander un outil qu'il n'a pas utilisé lui-même en conditions réelles. Plus de 150 outils IA testés et évalués depuis 2024. Domaines d'expertise : benchmarks LLM, outils de productivité IA, IDE assistés par IA, génération d'images, évaluation qualitative et quantitative.