Mes lectures 0

Mes lectures

Guides d'achat

Combien de RAM et de stockage pour faire tourner un LLM en local ?

Dimensionner RAM et SSD pour l'inférence locale : quantification, taille des poids et swap expliqués simplement.

cover 2895 1782806447

Faire tourner un modèle de langage (LLM) sur sa propre machine séduit de plus en plus d’utilisateurs : confidentialité des données, absence d’abonnement, fonctionnement hors-ligne. Mais avant d’installer Ollama, LM Studio ou llama.cpp, une question revient sans cesse : de combien de mémoire et de stockage ai-je réellement besoin ? La réponse dépend surtout de deux paramètres : la taille du modèle et son niveau de quantification. Ce guide vous aide à dimensionner votre configuration sans surpayer ni rester bloqué.

🤖 Transparence IA — Cet article a été rédigé avec l'assistance d'outils d'IA générative à partir de sources primaires identifiées, puis relu et validé par Mohamed Meguedmi, fondateur de LagazetteIA.

La règle de base : taille des poids et quantification

Un LLM est défini par son nombre de paramètres, exprimé en milliards (7B, 13B, 70B…). Chaque paramètre occupe de la place en mémoire, et c’est la quantification qui détermine combien. En pleine précision (FP16), chaque paramètre pèse environ 2 octets ; un modèle 7B réclame alors près de 14 Go rien que pour ses poids. Heureusement, la quantification réduit cette précision : en 4 bits (formats Q4 courants), on tombe à environ un demi-octet par paramètre, soit grossièrement 4 Go pour un 7B.

La règle empirique la plus utile : en quantification 4 bits, comptez à peu près 0,5 à 0,7 Go de RAM par milliard de paramètres, puis ajoutez une marge pour le contexte (la fenêtre de tokens) et le système. Concrètement, un modèle 7B en Q4 tient confortablement dans 8 Go, un 13B demande plutôt 16 Go, et un 70B exige 48 à 64 Go. Plus la quantification est agressive, plus l’empreinte mémoire baisse, au prix d’une légère perte de qualité, souvent imperceptible sur les tâches courantes.

RAM, VRAM ou unified memory : où vivent les poids ?

Tout dépend de votre matériel. Sur un PC classique sans carte graphique dédiée, le modèle est chargé en RAM système et calculé par le processeur : l’inférence fonctionne, mais reste lente. Avec une carte graphique, ce sont les poids logés dans la VRAM qui comptent : si le modèle dépasse la mémoire du GPU, une partie déborde sur la RAM, ce qui ralentit fortement. Sur les Mac Apple Silicon, la mémoire unifiée partagée entre CPU et GPU change la donne et permet de charger de gros modèles dans une seule réserve mémoire.

Le bon réflexe consiste à viser une machine où le modèle visé tient entièrement dans la mémoire la plus rapide disponible. Un 7B ou 13B doit idéalement loger dans la VRAM ou la mémoire unifiée ; dès qu’on déborde, les performances s’effondrent. Si vous hésitez, partez sur 16 Go pour démarrer sereinement avec les petits modèles, et 32 Go si vous voulez de la marge pour des modèles intermédiaires et un contexte étendu.

Le swap : filet de sécurité, pas solution

Quand la mémoire physique manque, le système bascule sur le swap, une zone du disque utilisée comme rallonge de mémoire. En théorie, cela permet de charger un modèle trop gros ; en pratique, l’inférence devient si lente qu’elle en perd presque tout intérêt, car un SSD reste des dizaines de fois plus lent que la RAM. Le swap dépanne pour tester ponctuellement un modèle, mais ne doit jamais constituer votre stratégie principale. Mieux vaut choisir un modèle plus petit ou plus quantifié qui tient en mémoire.

Quel stockage prévoir pour vos modèles

Côté disque, l’enjeu n’est pas la vitesse pure mais le volume. Les fichiers de modèles sont lourds : quelques gigaoctets pour un petit modèle quantifié, plusieurs dizaines pour les gros. En accumulant variantes et niveaux de quantification, on remplit vite un SSD. Prévoyez un SSD NVMe d’au moins 1 To si vous comptez collectionner plusieurs modèles ; le format NVMe accélère surtout le chargement initial en mémoire, pas l’inférence elle-même.

En résumé, dimensionnez d’abord la mémoire selon le plus gros modèle que vous voulez vraiment utiliser, en appliquant la règle des 4 bits, puis assurez-vous d’un stockage généreux pour héberger votre collection. Une machine équilibrée pour l’usage local courant tourne autour de 16 à 32 Go de mémoire et d’un SSD NVMe d’1 To : de quoi explorer la plupart des modèles ouverts sans frustration.

Notre sélection

BON
PLAN
Kit mémoire
Kit RAM DDR5 64 Go
Voir le prix sur Amazon →
BON
PLAN
Stockage rapide
SSD NVMe 2 To Gen4
Voir le prix sur Amazon →
🔗 Lien sponsorisé — il nous aide à soutenir notre travail, sans rien changer au prix que vous payez. En tant que Partenaire Amazon, LagazetteIA peut percevoir une commission sur les achats éligibles.
Avatar photo
À propos de l'auteur

Mohamed Meguedmi

Je suis Mohamed Meguedmi, fondateur et directeur éditorial de LagazetteIA. Multi-entrepreneur passionné de tech depuis toujours, j'ai intégré l'IA dans chacune de mes entreprises dès ses débuts. Chaque semaine, je teste des dizaines d'outils IA, compare les modèles et décortique les dernières avancées pour vous donner un avis concret, sans bullshit. Mon objectif avec LagazetteIA : vous faire gagner du temps et vous aider à prendre les bonnes décisions dans cette révolution technologique. La rédaction s'appuie sur des outils d'analyse modernes (incluant l'IA générative) et chaque publication est vérifiée et validée par mes soins avant mise en ligne. Profil LinkedIn : https://www.linkedin.com/in/mohamed-meguedmi/