- ▸ Un modèle de 26 millions de paramètres qui se finetune sur un ordinateur portable
- ▸ Thèse : la distillation par tâche refait surface comme stratégie crédible
- ▸ Contexte historique : de la course aux paramètres à la course à l'embarqué
- ▸ Analyse technique : un pré-entraînement express et un réseau d'attention simplifié
Cactus Compute a publié Needle, un modèle de 26 millions de paramètres pré-entraîné en 27 heures sur 16 TPU v6e et post-entraîné en 45 minutes pour l’appel de fonction. Il revendique surpasser FunctionGemma-270m, Qwen-0.6B, Graninte-350m et LFM2 sur le tool calling en un coup. La promesse : un modèle suffisamment compact pour être finetuné localement sur un Mac ou un PC, tout en restant utilisable sur des appareils contraints. Ce dossier décortique l’architecture, la méthode de distillation et ce que cette miniaturisation extrême annonce pour l’IA embarquée.
Points clés 1. Needle est un modèle de 26 millions de paramètres baptisé « Simple Attention Network » par Cactus Compute, pensé pour le tool calling en un seul tour. 2. Pré-entraînement effectué sur 16 TPU v6e pour 200 milliards de tokens en 27 heures, selon le dépôt GitHub du projet. 3. Post-entraînement spécialisé sur 2 milliards de tokens d’un dataset d’appels de fonction en 45 minutes seulement. 4. Selon ses auteurs, Needle bat FunctionGemma-270m, Qwen-0.6B, Graninte-350m et LFM2 sur le single-shot function call destiné à l’IA personnelle. 5. La cible déclarée : redéfinir la « tiny AI » pour téléphones, montres, lunettes — des appareils où chaque mégaoctet de mémoire pèse.
Un modèle de 26 millions de paramètres qui se finetune sur un ordinateur portable
Le 24 février 2026, Cactus Compute publie sur GitHub un dépôt sobrement intitulé needle. Le sous-titre du projet annonce la couleur : « 26m function call model that runs on incredibly small devices ». Aucun communiqué fracassant, pas de site dédié, juste un fichier checkpoints/needle.pkl et un README technique. La présentation passe par Hacker News sous l’étiquette « Show HN », rituel de mise en visibilité auprès de la communauté technique.
Le contraste est saisissant. Pendant que les laboratoires majeurs annoncent des modèles à plusieurs centaines de milliards de paramètres, une équipe livre un modèle 5 000 à 25 000 fois plus petit, en revendiquant des performances supérieures à plusieurs concurrents sur une tâche précise : appeler la bonne fonction avec les bons arguments à partir d’une requête utilisateur. L’exemple canonique fourni par le dépôt tient en une phrase : « What’s the weather in San Francisco? ». Le modèle doit produire l’appel d’outil correspondant.
Thèse : la distillation par tâche refait surface comme stratégie crédible
Needle n’est pas un modèle généraliste rétréci. C’est l’inverse : un modèle conçu dès le départ pour un usage circonscrit, et entraîné en deux phases courtes. La proposition de valeur est donc moins de rivaliser avec un assistant conversationnel que de prouver qu’un modèle dédié, taillé à 26 millions de paramètres, peut suffire pour la couche d’orchestration qui relie un utilisateur à une boîte à outils. Ce déplacement de focale, du modèle généraliste vers le modèle spécialisé miniature, est le cœur du dossier.
Contexte historique : de la course aux paramètres à la course à l’embarqué
Depuis 2020, la trajectoire dominante du secteur a été l’augmentation continue de la taille des modèles. GPT-3 a franchi la barre des 175 milliards de paramètres, puis les générations suivantes ont consolidé l’idée que la performance suivait la taille. Cette logique a structuré les annonces, les investissements en GPU et la concurrence entre laboratoires. Elle a aussi produit un effet collatéral : la dépendance au cloud pour l’inférence, puisqu’aucun terminal grand public ne pouvait héberger ces modèles.
Une contre-tendance s’est installée à partir de 2023, avec l’apparition de familles de petits modèles open-weight visant l’embarqué. Les noms cités par les auteurs de Needle balisent ce mouvement : Qwen-0.6B chez Alibaba, Granite-350m chez IBM, LFM2 chez Liquid AI, FunctionGemma-270m chez Google. Chacun explore un compromis différent entre taille, polyvalence et cas d’usage. La distillation, technique consistant à transférer le comportement d’un modèle large vers un modèle plus petit, est devenue un instrument central de cette dynamique.
Needle s’inscrit dans cette lignée mais radicalise la démarche. Le dépôt indique que le projet distille des capacités d’appel de fonction inspirées de Gemini dans un réseau de 26 millions de paramètres. La taille n’est plus seulement réduite : elle est ramenée à un ordre de grandeur où le finetuning n’exige plus de cluster GPU. Un MacBook ou un PC suffit, écrivent les auteurs. C’est un seuil de bascule pour la diffusion des compétences techniques autour de ces modèles, car il abaisse la barrière d’entrée pour les développeurs indépendants et les petites équipes.
L’autre toile de fond, c’est l’essor du paradigme agentique. Depuis 2024, l’attention de la communauté s’est déplacée du raisonnement pur vers la capacité à orchestrer des outils : appeler une API météo, lancer une recherche web, déclencher une commande système. Cette compétence, désignée par l’expression « tool calling » ou « function calling », est devenue une brique fondatrice des assistants modernes. Or, le tool calling présente une caractéristique intéressante : il ne demande pas la même profondeur de connaissances générales qu’une conversation libre. Il demande de la précision sur un format et sur une intention. Cette dissociation ouvre la porte à des modèles plus petits, dédiés à cette seule tâche.
Analyse technique : un pré-entraînement express et un réseau d’attention simplifié
Le dépôt GitHub de Cactus Compute fournit les principales données chiffrées qui permettent d’examiner la méthode. Le tableau suivant les rassemble.
| Paramètre | Valeur déclarée | Source |
|---|---|---|
| Taille du modèle | 26 millions de paramètres | github.com/cactus-compute/needle |
| Architecture | « Simple Attention Network » | github.com/cactus-compute/needle |
| Matériel d’entraînement | 16 TPU v6e | github.com/cactus-compute/needle |
| Tokens vus en pré-entraînement | 200 milliards | github.com/cactus-compute/needle |
| Durée du pré-entraînement | 27 heures | github.com/cactus-compute/needle |
| Tokens vus en post-entraînement | 2 milliards | github.com/cactus-compute/needle |
| Durée du post-entraînement | 45 minutes | github.com/cactus-compute/needle |
| Tâche cible | Single-shot function call | github.com/cactus-compute/needle |
Première lecture : le ratio entre la taille du modèle et le volume de tokens vus en pré-entraînement est très élevé. 200 milliards de tokens pour 26 millions de paramètres, c’est environ 7 700 tokens par paramètre. À titre de comparaison, la loi d’échelle dite de Chinchilla, publiée par DeepMind en 2022, recommandait un ordre de grandeur de 20 tokens par paramètre comme optimum compute-optimal. Needle s’éloigne donc volontairement de cette zone, en surentraînant un modèle compact sur une masse de tokens disproportionnée. C’est une stratégie classique pour les modèles embarqués : on consomme plus de calcul à l’entraînement pour réduire le coût marginal d’inférence et améliorer la qualité finale d’un petit modèle.
Deuxième observation : la durée. 27 heures sur 16 TPU v6e, c’est environ 432 TPU-heures cumulées pour le pré-entraînement. Ce volume reste considérable pour une équipe indépendante mais accessible pour une startup. Le post-entraînement ne demande lui que 45 minutes, ce qui signifie qu’une équipe disposant d’un dataset propre peut itérer rapidement sur la phase de spécialisation. Cette asymétrie est intéressante. Elle suggère que l’effort principal réside dans la construction d’une base linguistique compacte, et que l’adaptation à la tâche d’appel de fonction est, comparativement, peu coûteuse.
Troisième point : la dénomination « Simple Attention Network » employée par les auteurs. Le terme n’est pas un acronyme commercial mais une description : Cactus Compute revendique une architecture épurée par rapport aux transformeurs classiques, conçue pour rester légère sur des appareils contraints. Le dépôt ne détaille pas, dans les éléments accessibles à ce jour, l’écart précis avec un transformeur standard. Les sources disponibles à ce jour ne permettent pas non plus de chiffrer l’empreinte mémoire exacte du modèle en inférence, ni sa latence sur un appareil donné. Ces éléments restent à documenter.
Le dataset de post-entraînement, lui, est qualifié de « single-shot function call dataset ». Single-shot signifie ici un tour unique : une requête en entrée, un appel d’outil en sortie. Pas de dialogue prolongé, pas de raisonnement multi-étape avec plusieurs outils chaînés. Ce périmètre est volontairement étroit. Il correspond précisément à ce que la plupart des assistants personnels font le plus souvent : recevoir une intention courte et déclencher la bonne action. L’exemple fourni dans le README — « What’s the weather in San Francisco? » — illustre exactement cette boucle minimale.
Le snippet de code mis en avant dans le dépôt suit cette logique. Le modèle est appelé avec un prompt, retourne un objet structuré, et un print(result) affiche une liste contenant l’appel de fonction. L’extrait visible se termine par stream=False puis la sortie commence par [{, ce qui correspond à la structure typique d’un appel d’outil sérialisé en JSON. C’est l’interface qui s’est imposée chez la plupart des fournisseurs, d’OpenAI à Anthropic en passant par Google. Needle s’aligne donc sur une norme de fait du marché.
Impact terrain : ce que change un modèle qui se finetune sur un MacBook
Le premier impact est économique. Un modèle de 26 millions de paramètres, finetunable localement, déplace la question du coût d’expérimentation. Un développeur indépendant ou une PME peut aujourd’hui adapter Needle à son domaine sans louer du temps GPU. Le seuil d’entrée passe d’un budget cloud mensuel à une dépense de matériel déjà amortie. Ce changement n’est pas nouveau, mais il franchit ici une étape de plus, puisque l’entraînement complet de spécialisation tient sous l’heure pour des volumes modestes.
Le deuxième impact concerne les appareils. Le dépôt mentionne explicitement la cible des « consumer devices » comme les téléphones, montres et lunettes. Cette catégorie d’appareils ne tolère pas un modèle pesant plusieurs centaines de mégaoctets en mémoire vive. À 26 millions de paramètres, l’empreinte attendue se compte en dizaines de mégaoctets selon la quantification retenue. C’est compatible avec une exécution en arrière-plan sur un smartphone moderne, et envisageable sur des accessoires connectés disposant d’accélérateurs neuronaux dédiés. La latence devient un argument concurrentiel : un appel d’outil traité localement n’a pas à supporter le tour de réseau vers un serveur distant.
Le troisième impact est lié à la souveraineté des données. Pour un cas d’usage comme « lance un timer », « ajoute un rendez-vous », « appelle telle personne », l’envoi de la requête vers un serveur tiers expose des éléments personnels parfois sensibles. Une exécution locale réduit ce périmètre. Les régulateurs européens, en particulier la CNIL en France, observent depuis plusieurs années les flux de données générés par les assistants vocaux. Un modèle qui exécute la couche d’intention sur l’appareil sans communication réseau s’inscrit dans une logique de minimisation. C’est un argument que les constructeurs d’appareils peuvent utiliser dans leur communication.
Le quatrième impact concerne la chaîne d’outillage. Un modèle distillé pour le tool calling devient une brique parmi d’autres dans une architecture composée. Un assistant peut combiner un modèle compact pour le routage des intentions, un modèle plus grand pour la génération de texte complexe, et des outils dédiés pour les calculs ou les recherches factuelles. Needle, dans cette grille, prend la place de la couche de routage. Cela rejoint une tendance générale : les systèmes monolithiques cèdent du terrain à des compositions de modèles spécialisés. Pour les équipes produit, l’enjeu devient l’orchestration plutôt que le choix d’un modèle unique.
Reste une zone d’ombre. Les performances annoncées par Cactus Compute portent sur le single-shot function call pour l’IA personnelle, et l’équipe reconnaît elle-même que des modèles concurrents comme FunctionGemma-270m, Qwen-0.6B, Graninte-350m et LFM2 ont « plus de portée et de capacité » et « excellent en réglage conversationnel ». Autrement dit, Needle n’est pas conçu pour tenir une conversation, juste pour intercepter une intention et déclencher une action. Cette honnêteté périmètre l’usage et oriente la lecture des comparaisons : le modèle gagne là où il a été entraîné à gagner, pas en dehors.
Perspectives contradictoires : ce que les sceptiques opposent à la stratégie Needle
Plusieurs critiques peuvent être formulées à l’encontre de ce type de modèle ultra-compact. Première objection : la robustesse en distribution réelle. Un dataset d’appels de fonction en un coup ne capture pas la variété des reformulations qu’un utilisateur produit dans la vie courante. Un modèle de 26 millions de paramètres dispose d’une capacité de généralisation par essence limitée. Les benchmarks internes contrôlés ne reflètent pas toujours l’imprévisibilité des entrées humaines, et les régressions sur des cas marginaux peuvent dégrader rapidement l’expérience perçue.
Deuxième objection : la spécialisation extrême crée une dépendance à un schéma d’outils figé. Si l’éventail des fonctions disponibles change fréquemment, le modèle doit être réentraîné. La promesse d’un post-entraînement en 45 minutes atténue cette critique, mais ne l’annule pas. L’équipe produit doit maintenir un pipeline de mise à jour, gérer la qualité du dataset, surveiller les régressions. Pour une startup, ce coût opérationnel peut être supérieur à l’usage d’un modèle généraliste hébergé qui accepte n’importe quel schéma d’outils décrit dynamiquement dans le prompt.
Troisième objection : l’avantage compétitif sur un benchmark étroit n’est pas durable. Les modèles concurrents évoluent. FunctionGemma, Qwen, Granite et LFM ne sont pas figés dans leurs versions actuelles, et leurs équipes peuvent intégrer rapidement les techniques de distillation employées par Cactus Compute. Le leadership annoncé par Needle reflète un état du marché à un instant donné, à confirmer par des évaluations indépendantes et reproductibles. À ce stade, les chiffres présentés dans le dépôt ne s’accompagnent pas d’une table de scores publiée par un tiers.
Quatrième objection, plus structurelle : la multiplication des modèles dédiés pose un problème de cohérence. Si chaque éditeur d’appareil distille son propre modèle de tool calling, l’écosystème se fragmente. Le manque d’interopérabilité entre les schémas d’appel, déjà sensible aujourd’hui, risque de s’amplifier. Les développeurs d’applications devront soit cibler un modèle dominant, soit absorber un coût d’adaptation pour chaque plateforme. Cette fragmentation n’est pas spécifique à Needle, mais le mouvement vers des modèles miniaturisés et propriétaires l’accentue.
Ces objections n’invalident pas la démarche. Elles dessinent les conditions dans lesquelles un modèle comme Needle peut tenir ses promesses : un périmètre fonctionnel stable, un dataset bien construit, un pipeline d’évaluation continu, et une cible d’appareils où la latence et la confidentialité justifient le coût d’intégration. En dehors de ces conditions, le retour sur investissement reste à démontrer.
Prospective : vers une couche d’intention embarquée standardisée
La direction que dessine Needle est plus large qu’un produit isolé. Elle suggère qu’une couche d’intention embarquée, légère et finetunable, va s’installer dans les architectures d’assistants. Le pattern probable : un petit modèle local pour la détection d’intention et le routage des outils, complété par un modèle plus grand, distant ou local, pour les tâches de génération ou de raisonnement. La question ouverte porte sur la standardisation des schémas d’appel et sur la capacité de la communauté à publier des évaluations comparables. Tant que ces deux conditions ne sont pas réunies, chaque nouveau modèle compact restera évalué sur ses propres critères, et le lecteur devra exercer son esprit critique sur les comparaisons revendiquées.
FAQ
Qu’est-ce que Needle exactement ?
Needle est un modèle de 26 millions de paramètres publié le 24 février 2026 par Cactus Compute sur GitHub. Il est conçu pour une tâche précise : l’appel de fonction en un seul tour. Son architecture est qualifiée de « Simple Attention Network » par ses auteurs, et il vise les appareils contraints comme les téléphones, montres et lunettes connectées.
Comment Needle a-t-il été entraîné ?
Le modèle a été pré-entraîné sur 200 milliards de tokens en 27 heures, sur un cluster de 16 TPU v6e. Il a ensuite été post-entraîné sur 2 milliards de tokens d’un dataset d’appel de fonction en un coup, en 45 minutes. Cette structure en deux phases sépare la base linguistique de la spécialisation à la tâche.
Quelles performances Needle revendique-t-il ?
Selon le dépôt GitHub officiel, Needle dépasse FunctionGemma-270m, Qwen-0.6B, Graninte-350m et LFM2 sur le single-shot function call destiné à l’IA personnelle. Les auteurs précisent toutefois que ces modèles concurrents disposent de plus de portée et excellent en mode conversationnel. Aucune évaluation indépendante n’est publiée à ce jour.
Peut-on finetuner Needle soi-même ?
Oui. Le dépôt indique que Needle peut être finetuné localement sur un Mac ou un PC, sans cluster GPU. Cette accessibilité est l’un des arguments centraux du projet, car elle abaisse fortement la barrière d’entrée pour les développeurs souhaitant adapter le modèle à un domaine ou à un ensemble d’outils spécifique.
Sources
- Cactus Compute, dépôt GitHub needle, publié le 24 février 2026, https://github.com/cactus-compute/needle.



