Combien de RAM et de stockage pour faire tourner un LLM en local ?

Faire tourner un modèle de langage (LLM) sur sa propre machine séduit de plus en plus d’utilisateurs : confidentialité des données, absence d’abonnement, fonctionnement hors-ligne. Mais avant d’installer Ollama, LM Studio ou llama.cpp, une question revient sans cesse : de combien de mémoire et de stockage ai-je réellement besoin ? La réponse dépend surtout de deux paramètres : la taille du modèle et son niveau de quantification. Ce guide vous aide à dimensionner votre configuration sans surpayer ni rester bloqué.

🤖 Transparence IA — Cet article a été rédigé avec l'assistance d'outils d'IA générative à partir de sources primaires identifiées, puis relu et validé par Mohamed Meguedmi, fondateur de LagazetteIA.

Sommaire

La règle de base : taille des poids et quantification

Un LLM est défini par son nombre de paramètres, exprimé en milliards (7B, 13B, 70B…). Chaque paramètre occupe de la place en mémoire, et c’est la quantification qui détermine combien. En pleine précision (FP16), chaque paramètre pèse environ 2 octets ; un modèle 7B réclame alors près de 14 Go rien que pour ses poids. Heureusement, la quantification réduit cette précision : en 4 bits (formats Q4 courants), on tombe à environ un demi-octet par paramètre, soit grossièrement 4 Go pour un 7B.

La règle empirique la plus utile : en quantification 4 bits, comptez à peu près 0,5 à 0,7 Go de RAM par milliard de paramètres, puis ajoutez une marge pour le contexte (la fenêtre de tokens) et le système. Concrètement, un modèle 7B en Q4 tient confortablement dans 8 Go, un 13B demande plutôt 16 Go, et un 70B exige 48 à 64 Go. Plus la quantification est agressive, plus l’empreinte mémoire baisse, au prix d’une légère perte de qualité, souvent imperceptible sur les tâches courantes.

RAM, VRAM ou unified memory : où vivent les poids ?

Tout dépend de votre matériel. Sur un PC classique sans carte graphique dédiée, le modèle est chargé en RAM système et calculé par le processeur : l’inférence fonctionne, mais reste lente. Avec une carte graphique, ce sont les poids logés dans la VRAM qui comptent : si le modèle dépasse la mémoire du GPU, une partie déborde sur la RAM, ce qui ralentit fortement. Sur les Mac Apple Silicon, la mémoire unifiée partagée entre CPU et GPU change la donne et permet de charger de gros modèles dans une seule réserve mémoire.

Le bon réflexe consiste à viser une machine où le modèle visé tient entièrement dans la mémoire la plus rapide disponible. Un 7B ou 13B doit idéalement loger dans la VRAM ou la mémoire unifiée ; dès qu’on déborde, les performances s’effondrent. Si vous hésitez, partez sur 16 Go pour démarrer sereinement avec les petits modèles, et 32 Go si vous voulez de la marge pour des modèles intermédiaires et un contexte étendu.

Le swap : filet de sécurité, pas solution

Quand la mémoire physique manque, le système bascule sur le swap, une zone du disque utilisée comme rallonge de mémoire. En théorie, cela permet de charger un modèle trop gros ; en pratique, l’inférence devient si lente qu’elle en perd presque tout intérêt, car un SSD reste des dizaines de fois plus lent que la RAM. Le swap dépanne pour tester ponctuellement un modèle, mais ne doit jamais constituer votre stratégie principale. Mieux vaut choisir un modèle plus petit ou plus quantifié qui tient en mémoire.

Quel stockage prévoir pour vos modèles

Côté disque, l’enjeu n’est pas la vitesse pure mais le volume. Les fichiers de modèles sont lourds : quelques gigaoctets pour un petit modèle quantifié, plusieurs dizaines pour les gros. En accumulant variantes et niveaux de quantification, on remplit vite un SSD. Prévoyez un SSD NVMe d’au moins 1 To si vous comptez collectionner plusieurs modèles ; le format NVMe accélère surtout le chargement initial en mémoire, pas l’inférence elle-même.

En résumé, dimensionnez d’abord la mémoire selon le plus gros modèle que vous voulez vraiment utiliser, en appliquant la règle des 4 bits, puis assurez-vous d’un stockage généreux pour héberger votre collection. Une machine équilibrée pour l’usage local courant tourne autour de 16 à 32 Go de mémoire et d’un SSD NVMe d’1 To : de quoi explorer la plupart des modèles ouverts sans frustration.

Notre sélection

BON
PLAN

Kit mémoire

Kit RAM DDR5 64 Go

Voir le prix sur Amazon →

BON
PLAN

Stockage rapide

SSD NVMe 2 To Gen4

Voir le prix sur Amazon →

🔗 Lien sponsorisé — il nous aide à soutenir notre travail, sans rien changer au prix que vous payez. En tant que Partenaire Amazon, LagazetteIA peut percevoir une commission sur les achats éligibles.

Mes lectures

Newsletter IA

Combien de RAM et de stockage pour faire tourner un LLM en local ?

La règle de base : taille des poids et quantification

RAM, VRAM ou unified memory : où vivent les poids ?

Le swap : filet de sécurité, pas solution

Quel stockage prévoir pour vos modèles

Notre sélection

Mohamed Meguedmi

Guides & Thèmes

Mes lectures

Newsletter IA

La règle de base : taille des poids et quantification

RAM, VRAM ou unified memory : où vivent les poids ?

Le swap : filet de sécurité, pas solution

Quel stockage prévoir pour vos modèles

Notre sélection

Articles similaires

Mohamed Meguedmi

L'IA chaque semaine dans votre boîte

Pour aller plus loin

Le meilleur Mac pour l’IA locale : la mémoire unifiée expliquée

Quelle carte graphique (GPU) pour l’IA et le deep learning en 2026 ?

Quel PC portable pour faire tourner un LLM en local en 2026 ?

L'actu IA chaque semaine

Guides & Thèmes