Mes lectures 0

Mes lectures

IA Générale

Llama 5 open-source : 400 B et 5 M tokens chez Meta

Meta sort Llama 5 en open-weights le 8 avril 2026 : 400 B paramètres, fenêtre 5 M tokens et mode System 2 Thinking. Calcul et limites.

Illustration Meta Llama 5 modèle open-source 400 milliards paramètres avril 2026
📋 En bref
Meta sort Llama 5 en open-weights le 8 avril 2026 : 400 B paramètres, fenêtre 5 M tokens et mode System 2 Thinking. Calcul et limites.
  • Ce que Meta a annoncé
  • System 2 Thinking : le vrai pari
  • Qui est concerné
  • Combien ça coûte vraiment

Llama 5 est disponible depuis le 8 avril 2026, et Meta mise gros : 400 milliards de paramètres en open-weights, une fenêtre de contexte de 5 millions de tokens et un entraînement dit « System 2 » pour tenir sur des raisonnements multi-étapes. C’est la première fois depuis Llama 4 Maverick que Meta sort un modèle aussi lourd avec des poids téléchargeables.

Ce que Meta a annoncé

Mark Zuckerberg a officialisé la sortie sur scène, au premier jour de LlamaCon 2026. Llama 5 arrive en trois tailles : 70 B, 220 B et 400 B paramètres, toutes distribuées sous la licence communautaire Llama, utilisable jusqu’à 1 milliard d’utilisateurs actifs mensuels.

Le modèle se veut multimodal de bout en bout. Texte, image, audio et vidéo passent dans le même encodeur, sans adaptateur séparé. Meta revendique 5 M de tokens de contexte sur la version 400 B, soit la valeur la plus haute jamais publiée pour un modèle open-weights.

System 2 Thinking : le vrai pari

La nouveauté la plus commentée tient en deux mots : System 2 Thinking. Meta a entraîné Llama 5 à dérouler des chaînes de raisonnement longues avant de répondre, à la manière de Claude Opus 4.7 ou de Gemini 3.1. Les benchmarks internes annoncent 91,4 % sur GPQA Diamond et 58,2 % sur SWE-bench Verified pour la version 400 B.

Concrètement, le modèle peut passer jusqu’à 90 secondes en mode « thinking » avant de rendre une réponse sur un problème technique. Meta assume le coût : sur l’infrastructure Llama-on-Premise, une requête longue peut consommer 2 à 3 fois plus de tokens qu’avec un modèle classique. Le gain, côté Meta, c’est une qualité de sortie qui se rapproche des modèles propriétaires à prix divisé par trois.

Qui est concerné

Trois publics se partagent les poids :

  • Les entreprises qui refusent le cloud : Llama 5 tourne sur Hugging Face, sur AWS Bedrock, mais surtout sur serveur privé. Les équipes sécurité de la banque ou de la santé ont enfin un modèle frontier local.
  • Les chercheurs : les poids ouverts autorisent le fine-tuning, la distillation et l’étude des mécanismes internes. Llama 5 devient la colonne vertébrale des prochains papiers d’alignement.
  • Les intégrateurs et startups : fine-tuner un Llama 5 70 B pour un domaine métier coûte environ 120 000 € sur 8×H200. Cinq fois moins cher qu’une API propriétaire sur un an.

Combien ça coûte vraiment

Llama 5 est gratuit en téléchargement, pas en production. Pour tourner la version 400 B en inférence raisonnable, il faut au moins 8 GPU H200 (192 Go de VRAM chacun). Le coût machine tourne autour de 45 € par heure chez un cloud spécialisé comme Together ou Fireworks. Sur un mois, 32 000 € environ.

En comparaison, GPT-5.4 Pro facture 15 €/M tokens en entrée et 60 €/M en sortie. Pour un usage interne à 20 millions de tokens par jour, Llama 5 devient rentable autour de 60 jours d’exploitation. C’est le calcul que fait déjà Mistral sur son datacenter de Bruyères : rentabiliser l’infra plutôt que payer à l’usage.

Les limites du modèle

Tout n’est pas rose. Premièrement, la licence Llama reste restrictive au-delà d’un milliard d’utilisateurs, ce qui exclut Apple, Google ou ByteDance. Deuxièmement, le mode System 2 double la latence : comptez 8 à 15 secondes pour une réponse complexe, contre 2 à 3 secondes pour GPT-5.4 Standard. Troisièmement, les garde-fous restent perfectibles : les premiers red-teams publics ont déjà contourné les filtres sur cinq catégories sensibles.

Meta promet un correctif RLHF sous 30 jours, mais l’histoire de Llama 4 laisse prudent : deux patchs successifs avaient été nécessaires pour stabiliser le modèle. Les DSI qui déploient Llama 5 en production ont intérêt à attendre la version 5.1, prévue pour juin 2026.

La concurrence avec les modèles propriétaires repose désormais sur trois axes : coût à l’usage, souveraineté des données et vitesse d’exécution. Llama 5 gagne deux fois sur trois. C’est assez pour peser, pas assez pour renverser la table.

Avatar photo
À propos de l'auteur

Matteo Voss

Journaliste spécialisé en intelligence artificielle depuis 2018, Matteo Voss couvre l'actualité IA au quotidien pour LagazetteIA. Après huit ans de veille technologique dans les télécommunications chez Orange Labs et Bouygues Telecom, il a développé une expertise pointue dans l'analyse des annonces produits, des levées de fonds et des évolutions réglementaires du secteur IA. Son approche : transformer les communiqués techniques d'OpenAI, Google DeepMind ou Anthropic en articles clairs et contextualisés. Il a couvert plus de 500 actualités IA depuis le lancement de LagazetteIA, avec un taux de précision factuelle de 98%. Domaines d'expertise : modèles de langage (LLM), GPU et infrastructure IA, stratégies des Big Tech, régulation européenne de l'IA.