SubQ : 12 millions de tokens pour 8 dollars, vraiment ?

📋 En bref

Une jeune pousse affirme avoir contourné le goulet d'étranglement mathématique qui plombe les grands modèles de langage. Une évaluation indépendante valide

▸ Un run à huit dollars, et la question qui fâche
▸ La thèse : le goulet n'est pas le calcul brut, c'est l'attention
▸ D'où l'on vient : neuf ans sous le règne du Transformer
▸ Ce que disent les chiffres vérifiés

Une jeune pousse affirme avoir contourné le goulet d’étranglement mathématique qui plombe les grands modèles de langage. Une évaluation indépendante valide une partie des promesses ; le reste demeure invérifié. Faut-il y voir une rupture d’architecture ou une promesse intenable ? Trois chiffres, deux scénarios, une seule certitude : l’efficience devient le nouveau terrain d’affrontement de l’industrie.

🤖 Transparence IA — Cet article a été rédigé avec l'assistance d'outils d'IA générative à partir de sources primaires identifiées, puis relu et validé par Mohamed Meguedmi, fondateur de LagazetteIA.

Points clés 1. SubQ revendique une fenêtre de contexte allant jusqu’à 12 millions de tokens, un ordre de grandeur au-dessus des fenêtres habituelles du marché. 2. Le cabinet Appen rapporte un score de 98 % de récupération long-contexte sur des fenêtres de 6 et 12 millions de tokens, à des échelles que peu de modèles acceptent d’être testés. 3. Sur LiveCodeBench, banc d’essai de programmation compétitive, SubQ obtient 89,7 %, dans le peloton des meilleurs modèles de code. 4. Le coût de fonctionnement est l’argument central : une tâche facturée 2 600 $ sur Opus 4 d’Anthropic aurait coûté 8 $ à SubQ, selon son cofondateur Dangel. 5. Le scepticisme domine : un observateur résume l’enjeu d’une formule — « la plus grande percée depuis le Transformer, ou bien l’AI Theranos ».

Sommaire

Un run à huit dollars, et la question qui fâche

L’épisode tient en une comparaison de facture. Une charge de travail facturée 2 600 dollars sur Opus 4, le modèle haut de gamme d’Anthropic, aurait coûté huit dollars à SubQ. « It cost us eight dollars », résume Dangel, cofondateur de la startup. Le rapport est de plus de trois cents pour un. Si le chiffre tient, il ne décrit pas une optimisation marginale mais un changement d’échelle économique.

Le problème, c’est que les résultats spectaculaires appellent une prudence proportionnée. Un observateur du secteur a posé l’alternative sans détour : « SubQ is either the biggest breakthrough since the Transformer… or it’s AI Theranos. » Soit la percée la plus nette depuis l’architecture qui domine l’IA depuis 2017, soit une promesse aussi creuse que celle de la startup médicale déchue. Entre ces deux pôles, l’évaluation indépendante devient le seul arbitre crédible.

La thèse : le goulet n’est pas le calcul brut, c’est l’attention

Notre angle est le suivant : le débat n’oppose pas un « gros » modèle à un « petit ». Il porte sur le mécanisme d’attention, le cœur de l’architecture transformeur, dont le coût croît avec le carré de la longueur du texte. SubQ prétend l’avoir contourné. La question utile n’est donc pas « ce modèle est-il intelligent ? » mais « tient-il ses chiffres d’efficience une fois vérifiés par un tiers ? ». C’est là que se joue la crédibilité de la promesse — et l’éventuelle relève du transformeur.

D’où l’on vient : neuf ans sous le règne du Transformer

Pour comprendre pourquoi un coût divisé par trois cents fait réagir, il faut remonter à 2017. Cette année-là, une équipe de Google publie un article au titre devenu un slogan de l’industrie : « Attention Is All You Need ». Il introduit le transformeur, l’architecture sur laquelle reposent aujourd’hui la quasi-totalité des grands modèles de langage, de ChatGPT à Claude en passant par Gemini.

Le mécanisme d’attention permet au modèle de pondérer l’importance relative de chaque mot par rapport à tous les autres dans un texte donné. C’est ce qui donne aux modèles leur finesse contextuelle. Mais cette puissance a un prix mathématique, et il est lourd. Chaque token doit être comparé à tous les autres : le nombre d’opérations ne croît pas proportionnellement à la longueur du texte, il croît avec son carré.

L’ordre de grandeur illustre le mur. Pour un texte de 10 000 mots, le mécanisme déclenche près de 50 millions de multiplications individuelles, selon le décompte rapporté par MIT Technology Review. Doublez la longueur du texte, et vous ne doublez pas le calcul : vous le quadruplez. C’est ce que les ingénieurs appellent la complexité quadratique de l’attention, et c’est le goulet d’étranglement que SubQ revendique d’avoir franchi.

Cette contrainte a des conséquences très concrètes. Elle plafonne la taille des fenêtres de contexte — la mémoire de travail du modèle —, gonfle la facture d’inférence et limite les usages sur de très longs documents : bases de code entières, dossiers juridiques, archives. Toute la course récente à l’allongement du contexte se heurte à ce coût qui explose. C’est précisément cette frontière que la startup prétend déplacer, et c’est ce que les bancs d’essai indépendants doivent confirmer.

Ce que disent les chiffres vérifiés

Venons-en au cœur du dossier : les mesures. SubQ revendique une fenêtre de contexte allant jusqu’à 12 millions de tokens, sa mémoire de travail. L’échelle est inhabituelle. La plupart des modèles grand public opèrent sur des fenêtres bien plus courtes, et rares sont ceux que l’on évalue à de tels volumes. C’est là le premier point que l’évaluation externe devait trancher.

Le cabinet Appen, spécialisé dans la qualification de données et l’évaluation de modèles, a publié un rapport. Selon ce document, SubQ atteint 98 % sur des fenêtres de contexte de six millions et de douze millions de tokens, « sustaining near-perfect long-context retrieval at scales few models are tested at » — une récupération long-contexte quasi parfaite à des échelles où peu de modèles acceptent d’être mesurés. Concrètement, le test vérifie la capacité du modèle à retrouver une information précise noyée dans un volume gigantesque de texte. Un score de 98 % à 12 millions de tokens signifie que la mémoire ne se dégrade pas quand le document s’allonge — exactement le point où les architectures classiques flanchent.

Sur le terrain de la programmation, le second indicateur est plus consensuel. Sur LiveCodeBench, un banc d’essai qui évalue les modèles sur des problèmes de code compétitif tirés de concours réels, SubQ obtient 89,7 %. Ce résultat le place, selon MIT Technology Review, dans le même peloton que les meilleurs modèles de code actuels. Le modèle n’est donc pas un spécialiste étroit du long contexte : il tient son rang sur une tâche de raisonnement exigeante et largement standardisée.

Le tableau ci-dessous résume les mesures disponibles à ce jour, avec leur source. Les cases « non communiqué » signalent les zones où aucun chiffre vérifié n’existe encore — une honnêteté nécessaire dans un dossier où l’incertitude est le sujet même.

Indicateur mesuré	SubQ	Source
Fenêtre de contexte maximale	jusqu’à 12 M tokens	SubQ
Récupération long-contexte (6 M et 12 M tokens)	98 %	rapport Appen
LiveCodeBench (code compétitif)	89,7 %	MIT Technology Review
Coût d’un run comparé à Opus 4 (2 600 $)	8 $	Dangel / MIT Technology Review
Consommation énergétique chiffrée	non communiqué	—

Un chercheur indépendant cité par MIT Technology Review a réagi aux mesures de récupération : « That was really exciting to me, it validated their architecture. » L’enthousiasme porte sur un point précis — pas sur le modèle en général, mais sur la cohérence entre l’architecture revendiquée et les résultats observés à grande échelle. Cette nuance compte : valider une architecture n’est pas valider un produit fini. Et c’est là que le terrain économique prend le relais.

L’argument qui change l’équation : le coût

Si les performances brutes situent SubQ dans le peloton de tête, c’est l’efficience qui constitue son véritable argument. Le différentiel de coût est l’élément le plus frappant du dossier, et celui qui explique l’attention portée à une startup jusqu’ici discrète.

Reprenons le chiffre. Faire tourner Opus 4 d’Anthropic sur une tâche donnée revient à 2 600 dollars, selon Dangel. La même charge, exécutée sur SubQ, lui aurait coûté huit dollars. L’écart n’est pas de quelques pourcents : il est de plus de deux ordres de grandeur. Si ce ratio se confirmait sur des charges variées et reproductibles, il déplacerait la frontière entre ce qui est économiquement faisable et ce qui ne l’est pas — notamment pour les usages massifs sur de très longs documents, jusqu’ici dissuadés par la facture d’inférence.

La startup assume cette lecture. « We hope we’re kicking off a new age of efficiency », déclare Dangel : l’ambition affichée n’est pas la performance pure mais l’ouverture d’une ère d’efficience. La formule traduit un déplacement de l’axe concurrentiel. Pendant des années, la compétition s’est jouée sur le nombre de paramètres et les scores de benchmark. Le coût par tâche, longtemps relégué au second plan, devient un argument central.

Une réserve s’impose néanmoins, et nous la posons explicitement : la consommation énergétique chiffrée de SubQ n’est pas communiquée dans les sources disponibles à ce jour. Le coût monétaire est un proxy de l’efficience, pas une mesure directe de l’empreinte énergétique. Tant que des chiffres de consommation indépendants ne sont pas publiés, l’argument écologique reste une extrapolation. Cette zone d’ombre nous conduit naturellement aux objections sérieuses que soulève le dossier.

Pourquoi la prudence reste de mise

Aucune analyse honnête ne peut s’arrêter aux chiffres favorables. Le scepticisme qui entoure SubQ n’est pas un réflexe de jaloux : il repose sur la manière dont les résultats ont été présentés, et sur une asymétrie bien connue en science.

Le premier reproche tient à la séquence de communication. La startup a d’abord annoncé ses performances, puis publié les évaluations tierces. Dangel le reconnaît : « In hindsight, releasing the third-party benchmarks alongside the initial announcement would have preempted much of the skepticism, which is why we’re taking the time to make sure any future results are fully verified before putting them out. » Autrement dit, l’absence de validation externe au moment de l’annonce a nourri le doute, et l’équipe dit vouloir désormais vérifier ses résultats avant de les diffuser.

Le deuxième point est plus structurel. « We expected healthy skepticism », admet le cofondateur — un scepticisme sain était attendu. Il ajoute une vérité que tout chercheur reconnaîtra : « But when you have kind of shocking results, it’s really not as credible when you say it yourself. » Des résultats hors norme annoncés par leur propre auteur portent une crédibilité moindre que les mêmes résultats confirmés par un tiers. C’est exactement ce qui fonde la comparaison avec Theranos : la startup médicale avait revendiqué des performances extraordinaires sans jamais permettre leur vérification indépendante complète. La référence n’est pas une accusation ; c’est un rappel méthodologique.

Reste une asymétrie de preuve. Une évaluation positive d’Appen valide un protocole donné. Elle ne garantit ni la reproductibilité sur d’autres tâches, ni l’absence de cas d’usage où le modèle s’effondre. La charge de la preuve, dans ce type de revendication, pèse sur celui qui annonce — et elle n’est pas encore entièrement levée. Ce qui ne ferme pas pour autant la question de l’après-transformeur.

Et maintenant ? L’architecture transformeur en sursis

La prospective dépend entièrement d’un mot : reproductibilité. Si des évaluations indépendantes multiples confirment à la fois les performances et le différentiel de coût, SubQ ne sera pas un simple concurrent de plus. Il marquera l’émergence d’une alternative crédible à l’architecture qui domine l’IA depuis 2017.

La startup pousse cette logique jusqu’au bout. « We don’t think anybody will be building on transformers in a few years », avance Dangel : selon lui, plus personne ne construira sur les transformeurs d’ici quelques années. La projection est audacieuse, et elle reste une hypothèse de fondateur, pas un consensus de la communauté. L’histoire récente de l’IA invite à la mesure : les architectures dominantes ont la vie dure, parce que tout l’écosystème — outils, talents, infrastructures — est bâti autour d’elles. La vraie question ouverte n’est donc pas de savoir si SubQ remplacera le transformeur, mais si l’efficience, désormais mesurable et comparable, deviendra le critère qui réoriente les investissements du secteur.

FAQ

Qu’est-ce que SubQ et qu’a-t-il de différent ?

SubQ est un modèle de langage développé par une startup qui revendique avoir contourné la complexité quadratique du mécanisme d’attention, le coût de calcul qui croît avec le carré de la longueur du texte. Il affiche une fenêtre de contexte allant jusqu’à 12 millions de tokens et des performances de code comparables aux meilleurs modèles, selon MIT Technology Review.

Le coût de huit dollars est-il fiable ?

Le chiffre provient de Dangel, cofondateur de SubQ : une tâche facturée 2 600 dollars sur Opus 4 d’Anthropic lui aurait coûté huit dollars. C’est l’argument central de la startup. Il reste à confirmer par des comparaisons indépendantes et reproductibles sur des charges variées avant d’être tenu pour acquis.

Pourquoi parle-t-on d’« AI Theranos » ?

La formule, employée par un observateur, désigne le risque d’une promesse spectaculaire non vérifiable. La startup a d’abord annoncé ses résultats, puis publié les évaluations tierces, ce qui a nourri le doute. Seule une validation externe répétée peut écarter cette comparaison.

SubQ signe-t-il la fin du transformeur ?

Pas à ce stade. Son cofondateur anticipe un déclin de l’architecture transformeur d’ici quelques années, mais il s’agit d’une hypothèse, non d’un consensus. Le transformeur reste l’ossature de l’industrie, et une seule évaluation favorable ne suffit pas à le détrôner.

Sources – MIT Technology Review, « A startup claims it broke through a bottleneck that’s holding back LLMs », 19 juin 2026 — lire l’enquête originale – Rapport d’évaluation Appen sur la récupération long-contexte de SubQ (cité par MIT Technology Review) — détails dans l’article – Pour approfondir : comprendre la course aux fenêtres de contexte longues, ce que coûte vraiment l’inférence des grands modèles, le transformeur expliqué simplement, benchmarks de code : comment lire LiveCodeBench

Mes lectures

Newsletter IA