Points clés

  • Qwen 3.5 Small : 4 modèles open-source (0,8B, 2B, 4B, 9B) publiés le 3 mars 2026 sous licence MIT
  • Multimodal natif par fusion précoce texte-image, sans encodeur de vision séparé
  • Qwen 3.5-9B surpasse GPT-OSS-120B d’OpenAI (15 fois plus volumineux) sur les benchmarks de raisonnement
  • Architecture hybride Gated Delta Networks + MoE : coût d’inférence réduit de 30 à 40 % par rapport aux modèles denses équivalents
  • Déploiement possible sur smartphone, passerelle IoT ou station de travail selon la taille du modèle

Alibaba frappe un grand coup dans l’IA open-source. Le 3 mars 2026, le groupe chinois a publié Qwen 3.5 Small, une famille de quatre modèles multimodaux allant de 0,8 à 9 milliards de paramètres, disponibles sur Hugging Face et ModelScope. Sous licence MIT, ces modèles sont librement utilisables à des fins commerciales, sans les restrictions habituelles des licences Alpaca ou LLaMA. Le fait marquant : Qwen 3.5-9B surpasse le modèle GPT-OSS-120B d’OpenAI sur les benchmarks de raisonnement, alors qu’il est treize fois plus petit.

Une approche multimodale nativement intégrée

Contrairement à la plupart des modèles concurrents qui ajoutent un encodeur de vision à un modèle textuel existant, Qwen 3.5 adopte la fusion précoce (« early fusion ») : le texte et les images sont traités conjointement dès l’entraînement initial. Cette approche unifie la compréhension texte-image, améliore la cohérence entre raisonnement et analyse visuelle, et élimine le surcoût de prétraitement habituellement nécessaire pour convertir la vidéo en séquences d’images. Qwen 3.5 ingère images et extraits vidéo nativement.

Quatre tailles pour couvrir tous les usages

Alibaba décline sa famille de modèles en quatre variantes adaptées à des environnements différents. Le Qwen 3.5-0,8B cible les smartphones et les appareils embarqués, avec une latence inférieure à 100 millisecondes. Le modèle 2B vise les passerelles IoT et les systèmes ARM. Le 4B fonctionne sur un ordinateur portable équipé d’un GPU dédié de type RTX 3060. Enfin, le 9B est conçu pour les stations de travail et les serveurs. Cette stratégie « un modèle par échelle » s’oppose à l’approche centrée sur le cloud privilégiée par OpenAI et Anthropic, et offre trois avantages décisifs : la confidentialité des données (inférence locale), la réduction de la latence (pas d’aller-retour réseau) et la maîtrise des coûts (pas de facturation par appel API).

Un modèle de 9 milliards qui bat un géant de 120 milliards

OpenAI avait publié GPT-OSS-120B, un modèle open-source de 120 milliards de paramètres. Qwen 3.5-9B, treize fois plus petit, le surpasse pourtant sur les benchmarks de connaissance, de raisonnement et de capacités multilingues. Ce résultat illustre un constat de plus en plus partagé dans la communauté : la taille brute d’un modèle compte moins que la qualité de son architecture et de ses données d’entraînement. Alibaba tire parti de son écosystème de données propriétaires en mandarin, en commerce électronique et en logistique pour affiner ses modèles sur des domaines spécifiques.

Architecture hybride pour une efficacité maximale

Qwen 3.5 abandonne l’architecture Transformer dense classique, dont le mécanisme d’attention quadratique est coûteux en calcul. À la place, Alibaba combine les Gated Delta Networks (attention linéaire, mémoire logarithmique) avec un routage épars de type Mixture-of-Experts. Le résultat : des performances équivalentes aux modèles denses de taille similaire comme Llama ou Mistral, pour un coût d’inférence réduit de 30 à 40 %. Le coût d’entraînement diminue également, ce qui accélère les cycles d’itération.

FAQ

Qwen 3.5-9B peut-il remplacer Claude ou GPT en production ?

Pour les usages embarqués et en périphérie, oui : les poids open-source sous licence MIT permettent un déploiement commercial sans redevance. Pour les API cloud, la réponse est plus nuancée. L’ajustement fin sur des données propriétaires suivi d’un déploiement local élimine les coûts variables, mais les questions de sécurité, d’alignement et de conformité réglementaire exigent une expertise dédiée. L’adoption en entreprise reste freinée par l’inertie des écosystèmes OpenAI et Anthropic, tandis que les startups et les entreprises asiatiques adoptent ces modèles plus rapidement.

Quel impact sur la stratégie d’OpenAI et d’Anthropic ?

La pression de Qwen 3.5 pousse les acteurs occidentaux à distribuer eux aussi des modèles compacts open-source. L’avantage compétitif d’Alibaba repose sur son infrastructure, les subventions publiques chinoises pour l’entraînement de modèles et son écosystème d’appareils connectés. Le scénario le plus probable : Alibaba domine le marché asiatique et les déploiements en périphérie, tandis qu’OpenAI et Anthropic conservent leur avance sur le marché américain et les services cloud.

À suivre : l’adoption de Qwen 3.5 par les startups entre mars et mai 2026, les benchmarks d’ajustement fin sur données propriétaires, et la rumeur d’un modèle open-source Alibaba de plus de 50 milliards de paramètres prévu pour le troisième trimestre 2026.

Sources : VentureBeat, ML Query, GitHub Qwen, NVIDIA Technical Blog. Maillage : Gemini vs Qwen, Modèles alternatifs à Claude.