Points clés
- Mistral Small 4 est un modèle Mixture-of-Experts (MoE) de 119 milliards de paramètres avec 128 experts et 4 actifs par token (6 milliards de paramètres actifs).
- Publié sous licence Apache 2.0, il est entièrement open source et déployable via vLLM.
- Il unifie les capacités de Magistral (raisonnement), Devstral (code) et Mistral Small 3 (instruct) en un seul modèle.
- Fenêtre de contexte de 256 000 tokens avec entrées texte et image.
- 40 % de réduction de latence et 3x plus de requêtes par seconde par rapport à Mistral Small 3.
Mistral AI vient de poser un jalon significatif dans la course aux modèles open source. Avec la publication de Mistral Small 4 le 16 mars 2026, l’entreprise française propose un modèle unique qui fait le travail de quatre — et qui est disponible gratuitement sous licence Apache 2.0. Voici ce qu’il faut en retenir.
Architecture : 128 experts, 6 milliards actifs
Mistral Small 4 repose sur une architecture Mixture-of-Experts (MoE) avec 119 milliards de paramètres au total. Le modèle compte 128 experts spécialisés, dont 4 sont activés simultanément pour chaque token traité. Cela signifie que seuls 6 milliards de paramètres sont actifs à un instant donné — 8 milliards si l’on inclut les couches d’embedding et de sortie.
Cette architecture est l’atout principal du modèle. En ne sollicitant qu’une fraction de ses paramètres pour chaque requête, Mistral Small 4 atteint des performances proches de modèles beaucoup plus lourds tout en maintenant des coûts d’inférence maîtrisés. Pour les équipes qui déploient des modèles en production, la différence se traduit directement en euros sur la facture cloud.
Un modèle, quatre rôles
L’innovation principale de Mistral Small 4 n’est pas architecturale — c’est l’unification. Le modèle consolide les capacités de trois modèles précédemment distincts : Magistral pour le raisonnement pas-à-pas, Devstral pour le code et les agents, et Mistral Small 3 pour l’instruction généraliste. À ces trois rôles s’ajoute la compréhension d’images, ce qui en fait un modèle quadruple compétence.
En pratique, cela signifie qu’une équipe peut déployer un seul endpoint d’inférence au lieu de trois ou quatre. La simplification opérationnelle est considérable : un seul modèle à maintenir, une seule infrastructure de serving, un seul jeu de configurations à gérer.
Raisonnement configurable : un curseur, pas un interrupteur
L’une des fonctionnalités les plus intéressantes de Mistral Small 4 est son paramètre reasoning_effort, configurable par requête. Ce curseur permet de choisir le compromis entre vitesse de réponse et profondeur de raisonnement.
Avec reasoning_effort="none", le modèle répond de manière rapide et directe, dans un style comparable à Mistral Small 3.2. Avec reasoning_effort="high", il adopte un raisonnement délibéré, étape par étape, avec une verbosité similaire aux anciens modèles Magistral. Entre les deux, des niveaux intermédiaires permettent d’ajuster finement le comportement selon le cas d’usage.
Ce mécanisme est particulièrement pertinent pour les applications en production. Une requête de classification simple n’a pas besoin du même investissement cognitif qu’un problème de débogage complexe. Pouvoir ajuster ce curseur par requête, et non au niveau du modèle entier, donne aux développeurs un contrôle granulaire sur le rapport qualité-coût de chaque appel.
Performances : les chiffres
Les benchmarks communiqués par Mistral AI montrent des résultats solides. Par rapport à Mistral Small 3, le modèle affiche une réduction de 40 % de la latence de bout en bout dans une configuration optimisée pour la vitesse, et un débit triplé (3x plus de requêtes par seconde) dans une configuration optimisée pour le throughput.
La fenêtre de contexte de 256 000 tokens permet de traiter des documents longs, des bases de code entières ou des conversations étendues sans troncature. Le modèle accepte des entrées texte et image, avec une sortie texte — un format multimodal qui couvre la majorité des cas d’usage professionnels.
Selon MarkTechPost, le modèle se positionne en tête des benchmarks open source sur les tâches de raisonnement et de code, dépassant des modèles comme Llama 4 Scout et Qwen 2.5 72B sur plusieurs métriques clés.
Apache 2.0 : l’arme stratégique de Mistral
Le choix de la licence Apache 2.0 est un signal fort. Contrairement aux licences communautaires restrictives utilisées par Meta pour Llama ou par d’autres acteurs, Apache 2.0 autorise une utilisation commerciale sans restriction, sans obligation de partage des modifications, et sans limites sur le nombre d’utilisateurs.
Pour Mistral AI, c’est une stratégie d’adoption : en rendant le modèle aussi accessible que possible, l’entreprise vise à construire un écosystème autour de ses outils, à alimenter sa plateforme commerciale (La Plateforme) et à se positionner comme l’alternative européenne crédible aux modèles américains et chinois.
Pour les développeurs et les entreprises, le calcul est simple : un modèle performant, gratuit, sans contraintes juridiques et déployable sur leur propre infrastructure. C’est exactement ce que beaucoup attendaient pour réduire leur dépendance aux API propriétaires d’OpenAI, Google ou Anthropic.
Comment le déployer
Mistral Small 4 est disponible sur Nvidia NIM, Hugging Face (plusieurs variantes de checkpoints) et via vLLM pour le serving local. L’identifiant du modèle est mistral-small-4-119b-2603.
Pour un déploiement en inférence optimisé, comptez un serveur avec au minimum 4 GPU A100 80 Go ou équivalent pour la version non quantisée. Des versions quantisées en AWQ et GPTQ sont disponibles pour des configurations plus modestes.
FAQ
Combien de paramètres Mistral Small 4 active-t-il par requête ?
Bien que le modèle compte 119 milliards de paramètres au total, seuls 6 milliards sont actifs par token traité (8 milliards avec les couches d’embedding). L’architecture MoE active 4 experts parmi 128 pour chaque token.
Peut-on utiliser Mistral Small 4 commercialement sans restrictions ?
Oui. Le modèle est publié sous licence Apache 2.0, qui autorise une utilisation commerciale sans restriction, sans obligation de partage des modifications et sans limites sur le nombre d’utilisateurs ou de déploiements.
Quelle est la différence avec Mistral Small 3 ?
Mistral Small 4 unifie les capacités de trois modèles précédents (Magistral, Devstral, Mistral Small 3), ajoute la compréhension d’images, offre un raisonnement configurable par requête, et affiche 40 % de latence en moins et un débit triplé par rapport à Mistral Small 3.


