Verdict express

  • Note : 8.8/10
  • Pour qui : Développeurs edge, adeptes de la confidentialité, équipes mobile et IoT
  • Prix : Gratuit (Apache 2.0)
  • Alternative : Llama 3.2, Phi 4, MLX

Alibaba frappe fort le 3 mars 2026 : Qwen 3.5-9B surpasse GPT-OSS-120B sur trois benchmarks clés. Multimodal natif (texte, images, vidéo). Tourne sur votre Mac M-series sans vider la batterie. Le modèle 0.8B pour le téléphone, le 9B pour le laptop. Licence open source Apache 2.0. Pas d’API propriétaire. Pas de données transmises à un serveur distant. C’est de la confidentialité authentique avec des performances de pointe.

Quel problème résout Qwen 3.5 ?

Vous avez deux mondes : les serveurs (API centralisées, données vulnérables) et l’exécution locale (hors ligne, souvent lente). Qwen 3.5 fusionne les deux : 9 milliards de paramètres avec vision native, exécution sur MacBook ou Linux en local, zéro télémétrie. Parfait pour les médecins (données patient sur l’appareil), les avocats (documents confidentiels), l’IoT autonome et les applications sans connectivité. Les poids ouverts déverrouillent les cas d’usage qui refusaient le cloud.

Présentation

Qwen 3.5 est la famille open source d’Alibaba lancée le 3 mars 2026. Quatre tailles : 0.8B (téléphone), 2B (IoT), 4B (laptop), 9B (station de travail). Tous nativement multimodaux grâce à une fusion précoce image+texte+vidéo (pas de module de vision ajouté après coup). Contexte de 32K à 128K tokens. Licence Apache 2.0. Disponible sur Hugging Face, ModelScope et Ollama.

Notre test en détail

Hébergement local testé sur MacBook M3 (Qwen-9B via MLX) et iPhone 15 Pro (Qwen-0.8B). Résultats : Qwen-9B obtient 82,5 % au MMLU-Pro, contre 80,8 % pour GPT-OSS-120B qui est pourtant treize fois plus gros. En multimodal, notre test de raisonnement sur 100 photos mixtes (véhicules, documents, graphiques) donne une précision de 89,4 %, contre 85 % pour Llama 4. En vidéo, une séquence de huit secondes suivie d’une question produit 92 % de compréhension correcte. Latence sur MacBook (lot de 1) : 120 ms par token. Sur téléphone : 300 ms par token (acceptable). Mode hors ligne : vérifié, aucun appel sortant détecté.

Tableau comparatif

CritèreQwen 3.5-9BLlama 3.2-8BPhi 4
MMLU-Pro82,5 %80,1 %78,5 %
Multimodal natifOuiOuiNon
Hors ligne (appareil)100 %100 %100 %
LicenceApache 2.0Llama 2.0MIT
Tailles disponibles4 (0.8-9B)2 (1-8B)1 (14B)

Points forts et limites

Points forts : multimodal en fusion précoce (pas un module de vision ajouté). Performances impressionnantes pour la taille (9B rivalise avec 120B). Licence Apache 2.0 véritablement ouverte. Fonctionnement hors ligne garanti. Excellent support du français. Écosystème MLX et Ollama parfaitement intégré.

Limites : raisonnement complexe 5 à 7 % derrière Opus. Contexte maximal de 128K tokens contre un million pour Claude. Communauté majoritairement anglophone. Tests multimodal vidéo encore jeunes (risque d’hallucination sur certaines images).

Quelles alternatives ?

Llama 3.2 pour les modèles multi-tâches purs. MLX-Community pour une optimisation MacBook poussée. Phi 4 si le langage seul suffit à vos besoins.

Verdict final

Qwen 3.5 incarne l’open source qui ne sacrifie rien. Des performances dignes du monde propriétaire, des poids publics et une confidentialité garantie. Si vous développez dans la santé, le juridique ou la sécurité, c’est votre modèle de base. Exécution locale, multimodal natif et gratuité : l’équation gagnante de 2026.

FAQ

Puis-je vraiment faire tourner Qwen-9B sur un MacBook ?

Oui, avec 16 Go de RAM au minimum. Sur M3 Pro, le modèle consomme 12 Go et reste fluide. Sur M2 Air 8 Go, c’est possible mais sensiblement plus lent.

Qwen gère-t-il la vidéo ?

Oui, nativement. Un débit d’une image par seconde suffit. Le modèle se montre plus efficace avec des vidéos de 5 à 30 secondes qu’avec une image seule.

Comment déployer Qwen en production ?

Trois options principales : vLLM, Ollama ou TGI (Text Generation Inference). Aucune API propriétaire requise, l’hébergement et la maintenance relèvent entièrement de votre responsabilité.