- ▸ Ce que Meta a annoncé
- ▸ System 2 Thinking : le vrai pari
- ▸ Qui est concerné
- ▸ Combien ça coûte vraiment
Llama 5 est disponible depuis le 8 avril 2026, et Meta mise gros : 400 milliards de paramètres en open-weights, une fenêtre de contexte de 5 millions de tokens et un entraînement dit « System 2 » pour tenir sur des raisonnements multi-étapes. C’est la première fois depuis Llama 4 Maverick que Meta sort un modèle aussi lourd avec des poids téléchargeables.
Ce que Meta a annoncé
Mark Zuckerberg a officialisé la sortie sur scène, au premier jour de LlamaCon 2026. Llama 5 arrive en trois tailles : 70 B, 220 B et 400 B paramètres, toutes distribuées sous la licence communautaire Llama, utilisable jusqu’à 1 milliard d’utilisateurs actifs mensuels.
Le modèle se veut multimodal de bout en bout. Texte, image, audio et vidéo passent dans le même encodeur, sans adaptateur séparé. Meta revendique 5 M de tokens de contexte sur la version 400 B, soit la valeur la plus haute jamais publiée pour un modèle open-weights.
System 2 Thinking : le vrai pari
La nouveauté la plus commentée tient en deux mots : System 2 Thinking. Meta a entraîné Llama 5 à dérouler des chaînes de raisonnement longues avant de répondre, à la manière de Claude Opus 4.7 ou de Gemini 3.1. Les benchmarks internes annoncent 91,4 % sur GPQA Diamond et 58,2 % sur SWE-bench Verified pour la version 400 B.
Concrètement, le modèle peut passer jusqu’à 90 secondes en mode « thinking » avant de rendre une réponse sur un problème technique. Meta assume le coût : sur l’infrastructure Llama-on-Premise, une requête longue peut consommer 2 à 3 fois plus de tokens qu’avec un modèle classique. Le gain, côté Meta, c’est une qualité de sortie qui se rapproche des modèles propriétaires à prix divisé par trois.
Qui est concerné
Trois publics se partagent les poids :
- Les entreprises qui refusent le cloud : Llama 5 tourne sur Hugging Face, sur AWS Bedrock, mais surtout sur serveur privé. Les équipes sécurité de la banque ou de la santé ont enfin un modèle frontier local.
- Les chercheurs : les poids ouverts autorisent le fine-tuning, la distillation et l’étude des mécanismes internes. Llama 5 devient la colonne vertébrale des prochains papiers d’alignement.
- Les intégrateurs et startups : fine-tuner un Llama 5 70 B pour un domaine métier coûte environ 120 000 € sur 8×H200. Cinq fois moins cher qu’une API propriétaire sur un an.
Combien ça coûte vraiment
Llama 5 est gratuit en téléchargement, pas en production. Pour tourner la version 400 B en inférence raisonnable, il faut au moins 8 GPU H200 (192 Go de VRAM chacun). Le coût machine tourne autour de 45 € par heure chez un cloud spécialisé comme Together ou Fireworks. Sur un mois, 32 000 € environ.
En comparaison, GPT-5.4 Pro facture 15 €/M tokens en entrée et 60 €/M en sortie. Pour un usage interne à 20 millions de tokens par jour, Llama 5 devient rentable autour de 60 jours d’exploitation. C’est le calcul que fait déjà Mistral sur son datacenter de Bruyères : rentabiliser l’infra plutôt que payer à l’usage.
Les limites du modèle
Tout n’est pas rose. Premièrement, la licence Llama reste restrictive au-delà d’un milliard d’utilisateurs, ce qui exclut Apple, Google ou ByteDance. Deuxièmement, le mode System 2 double la latence : comptez 8 à 15 secondes pour une réponse complexe, contre 2 à 3 secondes pour GPT-5.4 Standard. Troisièmement, les garde-fous restent perfectibles : les premiers red-teams publics ont déjà contourné les filtres sur cinq catégories sensibles.
Meta promet un correctif RLHF sous 30 jours, mais l’histoire de Llama 4 laisse prudent : deux patchs successifs avaient été nécessaires pour stabiliser le modèle. Les DSI qui déploient Llama 5 en production ont intérêt à attendre la version 5.1, prévue pour juin 2026.
La concurrence avec les modèles propriétaires repose désormais sur trois axes : coût à l’usage, souveraineté des données et vitesse d’exécution. Llama 5 gagne deux fois sur trois. C’est assez pour peser, pas assez pour renverser la table.



