Mes lectures 0

Mes lectures

Guides

30 minutes pour faire tourner un agent IA local sur ton Mac

Ollama, un modèle 7B adapté au Mac Apple Silicon et une interface graphique suffisent. Aucune ligne de code si tu suis l'ordre des étapes, testé sur M2 et M3.

MacBook posé sur un bureau en bois avec une tasse de café, éclairé à la lumière naturelle du matin, évoquant un poste de travail personnel
📋 En bref
Ollama, un modèle 7B adapté au Mac Apple Silicon et une interface graphique suffisent. Aucune ligne de code si tu suis l'ordre des étapes, testé sur M2 et M3.
  • Points clés
  • Ce qu'il te faut avant de commencer
  • Étape 1 — Installer Ollama, le moteur qui fait tout tourner
  • Étape 2 — Lancer ton premier agent IA local sur Mac

Faire tourner un agent IA local sur ton Mac n’est plus réservé aux développeurs. En 30 minutes chrono, tu peux installer un modèle de langage qui fonctionne hors connexion, lire tes documents, répondre à tes questions et piloter quelques tâches simples — sans payer d’abonnement mensuel ni envoyer tes fichiers dans le cloud. Ce guide couvre les trois grandes étapes : installation, premier lancement, puis connexion à tes applications. Tout est testé sur Apple Silicon (M2 et M3) avec macOS 14 Sonoma ou plus récent.

Points clés

  • Pour un agent IA local sur Mac, tu n’as besoin que de trois briques : un moteur (Ollama), un modèle (Llama 3.2 ou Mistral 7B) et une interface (Open WebUI ou AnythingLLM).
  • L’investissement matériel minimum est un Mac Apple Silicon avec 16 Go de RAM — en dessous, les modèles utiles ne tournent pas correctement.
  • L’usage hors ligne garantit la confidentialité : aucune donnée ne quitte la machine, ce qui change la donne pour les professionnels soumis au RGPD ou au secret médical.
  • L’écart de qualité avec Claude ou GPT-5 existe mais se réduit fortement sur les tâches de résumé, reformulation, recherche dans tes documents.

Ce qu’il te faut avant de commencer

Avant de te lancer, vérifie trois points. D’abord le matériel : un Mac Apple Silicon (M1 minimum, M2 ou M3 recommandé) avec au moins 16 Go de RAM. En dessous, les modèles 7 milliards de paramètres tournent mais lentement, et les modèles 13B ou plus deviennent inutilisables. Si tu as un Mac Intel, ce guide ne s’applique pas — passe par une solution cloud à la place.

Ensuite le système : macOS 14 Sonoma ou plus récent. Tu peux vérifier dans Menu Pomme → À propos de ce Mac. Enfin l’espace disque : prévois 20 à 40 Go selon les modèles que tu veux télécharger. Un modèle 7B pèse entre 4 et 8 Go, un modèle 13B environ 8 à 14 Go. Tu peux supprimer facilement ceux dont tu ne te sers plus.

Étape 1 — Installer Ollama, le moteur qui fait tout tourner

Ollama est devenu le standard pour faire tourner des modèles open source en local. L’installation prend deux minutes. Rends-toi sur ollama.com et télécharge l’application Mac. C’est un .dmg classique, tu glisses Ollama dans tes Applications.

Lance l’app une première fois. Une icône apparaît dans la barre des menus en haut à droite. Ollama tourne en arrière-plan et expose une API locale sur le port 11434. Tu peux vérifier que tout fonctionne en ouvrant Terminal et en tapant ollama --version. Si la version s’affiche, tu es bon.

Maintenant télécharge ton premier modèle. Toujours dans Terminal, tape ollama pull llama3.2. Le téléchargement prend deux à cinq minutes selon ta connexion. Llama 3.2 est un bon choix de départ : 3 milliards de paramètres, léger, rapide, compétent en français. Si tu préfères un modèle français optimisé, tape ollama pull mistral à la place pour récupérer Mistral 7B.

Étape 2 — Lancer ton premier agent IA local sur Mac

Tu as Ollama installé et un modèle téléchargé. Test rapide dans Terminal : ollama run llama3.2. Une invite apparaît, tape une question en français, l’agent répond. Tu viens de faire tourner un LLM sans Internet, sans abonnement et sans qu’aucune donnée ne sorte de ton Mac.

Le Terminal n’est pas le plus agréable au quotidien. Pour une interface graphique propre, tu vas installer Open WebUI ou AnythingLLM. Les deux sont gratuits et open source. Open WebUI ressemble à ChatGPT, AnythingLLM est davantage orienté documents et agents.

Pour Open WebUI, télécharge Docker Desktop si tu ne l’as pas (docker.com), lance-le, puis dans Terminal tape : docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main. Ouvre ensuite http://localhost:3000 dans ton navigateur. Compte créé à la première connexion, choix du modèle dans la liste déroulante, tu as ton ChatGPT local.

Pour AnythingLLM, télécharge directement l’app Mac sur anythingllm.com, installe-la, et pointe-la vers Ollama dans les réglages. L’app gère les workspaces, les documents et les modèles.

Étape 3 — Faire lire tes documents à ton agent

Un agent qui ne fait que discuter, c’est bien. Un agent qui lit tes documents et te répond en citant, c’est mieux. AnythingLLM gère cette fonction en natif via le RAG (Retrieval-Augmented Generation). Dans un workspace, tu glisses tes PDF, docx, notes. L’app les découpe en morceaux, crée des embeddings locaux avec Ollama, et les rend interrogeables.

Exemple concret : tu glisses les 10 derniers mémos de ta boîte. Tu poses une question comme « Quelles sont les décisions prises en mars ? ». L’agent cherche dans les documents, trouve les passages pertinents, te répond en citant la source. Le tout reste en local sur ton Mac.

Sur Open WebUI, la fonction s’appelle « Documents ». Tu uploads tes fichiers, l’outil les indexe avec un modèle d’embeddings léger (tu peux utiliser nomic-embed-text via ollama pull nomic-embed-text) et les pondère dans les réponses.

Étape 4 — Connecter l’agent à tes apps Mac

Pour aller au-delà du chat avec documents, tu peux transformer l’agent en vrai assistant qui pilote tes apps. Trois approches au choix.

Approche 1 — Raccourcis Apple. L’app Raccourcis (installée par défaut sur macOS) peut appeler l’API Ollama via une action Obtenir le contenu d’une URL pointée sur http://localhost:11434/api/generate. Tu composes un raccourci qui prend le texte sélectionné, l’envoie à Ollama avec un prompt fixe (résumer, reformuler, traduire), et colle le résultat. Ça marche dans toutes les apps Mac qui exposent un menu Services.

Approche 2 — n8n en local. Si tu veux des workflows plus complexes (lire un flux RSS, résumer chaque article avec ton agent local, pousser vers Notion), installe n8n via npm install -g n8n puis lance-le avec n8n. n8n fournit une interface visuelle pour chaîner des étapes, et supporte Ollama via un nœud HTTP Request pointé sur le port 11434.

Approche 3 — Intégration MCP. Le protocole Model Context Protocol, qui a franchi les 97 millions d’installs, permet de connecter ton agent local à des serveurs qui exposent tes apps (Mail, Calendar, Notion, GitHub). AnythingLLM supporte MCP en natif depuis mars 2026. Tu ajoutes un serveur MCP, tu lui donnes accès au périmètre que tu veux, et ton agent peut lire ou écrire dans les apps concernées.

Dépannage : les 5 erreurs les plus fréquentes

1. Le modèle est lent ou rame. Tu es probablement sur un Mac avec 8 Go de RAM ou tu as trop d’apps ouvertes. Ferme Slack, le navigateur, les apps Electron. Si le problème persiste, passe à un modèle plus léger : ollama pull phi3.5 (3,8B, très rapide sur Apple Silicon).

2. Open WebUI ne voit pas Ollama. Vérifie que Docker est bien lancé et que tu as utilisé l’option --add-host=host.docker.internal:host-gateway. Sans cette option, le container Docker ne trouve pas Ollama sur ton Mac hôte.

3. L’agent répond en anglais alors que je lui parle en français. Les modèles comme Llama 3.2 penchent vers l’anglais par défaut. Précise dans le system prompt : « Tu réponds uniquement en français, quelle que soit la langue de la question ». Ou passe sur Mistral qui gère mieux le français nativement.

4. Pas assez de contexte pour mes longs documents. Les modèles 7B ont souvent une fenêtre de 8 à 32K tokens. Pour des documents plus longs, découpe-les manuellement ou utilise un modèle à plus gros contexte (ollama pull llama3.1:70b si ton Mac a 48 Go+ de RAM unifiée).

5. Le disque sature. Tu as accumulé les modèles. Liste-les avec ollama list et supprime les inutiles avec ollama rm nom_du_modele. Garde 2 ou 3 modèles max au quotidien.

Pour aller plus loin

Une fois ce socle en place, plusieurs pistes méritent d’être explorées. D’abord la personnalisation des system prompts : AnythingLLM et Open WebUI permettent de créer des « agents » avec une personnalité et un contexte spécifiques. Crée un agent « rédacteur LinkedIn » avec des exemples de ton style, un autre « analyste finance » avec des règles de calcul, etc.

Ensuite la vision. Llama 3.2 existe en version multimodale qui accepte des images (ollama pull llama3.2-vision). Utile pour OCR maison, analyse de graphiques, ou compréhension de captures d’écran. Ne t’attends pas à la qualité de GPT-5, mais pour du traitement de masse local, c’est exploitable.

Enfin la comparaison avec le cloud. Pour savoir quand un modèle local suffit et quand il faut passer sur Claude ou GPT-5, le comparatif Codex vs Claude Code donne des repères concrets sur les tâches de code. Sur la rédaction longue ou l’analyse nuancée, les modèles cloud gardent un avantage net. Sur le résumé, la reformulation ou la recherche dans tes documents, le local tient parfaitement la route.

FAQ

Combien coûte au total une installation d’agent IA local sur Mac ? Rien en logiciel. Tous les outils cités (Ollama, Open WebUI, AnythingLLM, n8n) sont gratuits et open source. Seul le matériel (Mac Apple Silicon 16 Go+) représente un investissement, mais tu l’as déjà si tu as acheté un Mac récent.

Mes données sont-elles vraiment protégées ? Oui, tant que tu ne coches pas d’option de télémétrie. Ollama, AnythingLLM et Open WebUI fonctionnent 100 % en local par défaut. Aucun prompt ni document ne sort de ta machine. Vérifie juste les réglages à la première utilisation.

Mon Mac mini peut-il faire tourner tout ça ? Oui, à condition d’avoir au moins 16 Go de RAM unifiée. Le Mac mini M2 Pro en 16 ou 32 Go est une excellente base, souvent meilleure rapport performances/prix qu’un MacBook pour un usage fixe à la maison.

Avatar photo
À propos de l'auteur

Eric Delcourt

Ancien formateur en compétences numériques (2016-2023) et pédagogue passionné, Eric Delcourt rédige les guides pratiques et tutoriels de LagazetteIA. Certifié Google Digital Garage et Microsoft AI Fundamentals, il a formé plus de 2 000 professionnels à l'utilisation des outils numériques et IA. Ses tutoriels sont conçus pour être accessibles à tous, même en partant de zéro, avec une progression pédagogique éprouvée étape par étape. Chaque guide inclut des captures d'écran annotées, des cas d'usage concrets et des FAQ issues des questions réelles de ses lecteurs. Sa philosophie : si un lecteur bloque sur une étape, c'est le guide qui est mal fait, pas le lecteur. Domaines d'expertise : tutoriels IA pas-à-pas, productivité avec l'IA, automatisation no-code, prompt engineering, formation aux outils IA.