Llama 5 open-source : 400 B et 5 M tokens chez Meta

📋 En bref

Meta sort Llama 5 en open-weights le 8 avril 2026 : 400 B paramètres, fenêtre 5 M tokens et mode System 2 Thinking. Calcul et limites.

▸ Ce que Meta a annoncé
▸ System 2 Thinking : le vrai pari
▸ Qui est concerné
▸ Combien ça coûte vraiment

Llama 5 est disponible depuis le 8 avril 2026, et Meta mise gros : 400 milliards de paramètres en open-weights, une fenêtre de contexte de 5 millions de tokens et un entraînement dit « System 2 » pour tenir sur des raisonnements multi-étapes. C’est la première fois depuis Llama 4 Maverick que Meta sort un modèle aussi lourd avec des poids téléchargeables.

Table of Contents

Ce que Meta a annoncé

Mark Zuckerberg a officialisé la sortie sur scène, au premier jour de LlamaCon 2026. Llama 5 arrive en trois tailles : 70 B, 220 B et 400 B paramètres, toutes distribuées sous la licence communautaire Llama, utilisable jusqu’à 1 milliard d’utilisateurs actifs mensuels.

Le modèle se veut multimodal de bout en bout. Texte, image, audio et vidéo passent dans le même encodeur, sans adaptateur séparé. Meta revendique 5 M de tokens de contexte sur la version 400 B, soit la valeur la plus haute jamais publiée pour un modèle open-weights.

System 2 Thinking : le vrai pari

La nouveauté la plus commentée tient en deux mots : System 2 Thinking. Meta a entraîné Llama 5 à dérouler des chaînes de raisonnement longues avant de répondre, à la manière de Claude Opus 4.7 ou de Gemini 3.1. Les benchmarks internes annoncent 91,4 % sur GPQA Diamond et 58,2 % sur SWE-bench Verified pour la version 400 B.

Concrètement, le modèle peut passer jusqu’à 90 secondes en mode « thinking » avant de rendre une réponse sur un problème technique. Meta assume le coût : sur l’infrastructure Llama-on-Premise, une requête longue peut consommer 2 à 3 fois plus de tokens qu’avec un modèle classique. Le gain, côté Meta, c’est une qualité de sortie qui se rapproche des modèles propriétaires à prix divisé par trois.

Qui est concerné

Trois publics se partagent les poids :

Les entreprises qui refusent le cloud : Llama 5 tourne sur Hugging Face, sur AWS Bedrock, mais surtout sur serveur privé. Les équipes sécurité de la banque ou de la santé ont enfin un modèle frontier local.
Les chercheurs : les poids ouverts autorisent le fine-tuning, la distillation et l’étude des mécanismes internes. Llama 5 devient la colonne vertébrale des prochains papiers d’alignement.
Les intégrateurs et startups : fine-tuner un Llama 5 70 B pour un domaine métier coûte environ 120 000 € sur 8×H200. Cinq fois moins cher qu’une API propriétaire sur un an.

Combien ça coûte vraiment

Llama 5 est gratuit en téléchargement, pas en production. Pour tourner la version 400 B en inférence raisonnable, il faut au moins 8 GPU H200 (192 Go de VRAM chacun). Le coût machine tourne autour de 45 € par heure chez un cloud spécialisé comme Together ou Fireworks. Sur un mois, 32 000 € environ.

En comparaison, GPT-5.4 Pro facture 15 €/M tokens en entrée et 60 €/M en sortie. Pour un usage interne à 20 millions de tokens par jour, Llama 5 devient rentable autour de 60 jours d’exploitation. C’est le calcul que fait déjà Mistral sur son datacenter de Bruyères : rentabiliser l’infra plutôt que payer à l’usage.

Les limites du modèle

Tout n’est pas rose. Premièrement, la licence Llama reste restrictive au-delà d’un milliard d’utilisateurs, ce qui exclut Apple, Google ou ByteDance. Deuxièmement, le mode System 2 double la latence : comptez 8 à 15 secondes pour une réponse complexe, contre 2 à 3 secondes pour GPT-5.4 Standard. Troisièmement, les garde-fous restent perfectibles : les premiers red-teams publics ont déjà contourné les filtres sur cinq catégories sensibles.

Meta promet un correctif RLHF sous 30 jours, mais l’histoire de Llama 4 laisse prudent : deux patchs successifs avaient été nécessaires pour stabiliser le modèle. Les DSI qui déploient Llama 5 en production ont intérêt à attendre la version 5.1, prévue pour juin 2026.

La concurrence avec les modèles propriétaires repose désormais sur trois axes : coût à l’usage, souveraineté des données et vitesse d’exécution. Llama 5 gagne deux fois sur trois. C’est assez pour peser, pas assez pour renverser la table.

Mes lectures

Newsletter IA

Llama 5 open-source : 400 B et 5 M tokens chez Meta

Ce que Meta a annoncé

System 2 Thinking : le vrai pari

Qui est concerné

Combien ça coûte vraiment

Les limites du modèle

Matteo Voss

Mes lectures

Newsletter IA

Ce que Meta a annoncé

System 2 Thinking : le vrai pari

Qui est concerné

Combien ça coûte vraiment

Les limites du modèle

Articles similaires

Matteo Voss

L'IA chaque semaine dans votre boîte

Pour aller plus loin

IA souveraine japonaise : 6,3 Md$ pour un LLM sans les US

Australie : 73 dossiers truqués à l’IA, la justice durcit

Microsoft Purview × Copilot : le DPO bloque enfin les prompts à risque

L'actu IA chaque matin