SubQ : 12M tokens à 8 $ et l'ère post-Transformer s'ouvre

📋 En bref

Subquadratic affirme avoir levé le verrou architectural des LLM. Son modèle SubQ annonce une fenêtre de contexte de 12 millions de tokens, un score Appen d

▸ L'annonce qui divise la communauté IA
▸ La thèse : la complexité quadratique a fait son temps
▸ D'« Attention Is All You Need » au mur du quadratique
▸ L'analyse technique : ce que disent les benchmarks et ce qu'ils ne disent pas

Subquadratic affirme avoir levé le verrou architectural des LLM. Son modèle SubQ annonce une fenêtre de contexte de 12 millions de tokens, un score Appen de 98 % sur les longs contextes et un coût d’exécution affiché à 8 dollars là où Anthropic facturerait 2 600 dollars sur Opus 4. Les chiffres méritent un examen méthodique : trois métriques, trois angles, trois zones d’ombre.

🤖 Transparence IA — Cet article a été rédigé avec l'assistance d'outils d'IA générative à partir de sources primaires identifiées, puis relu et validé par Mohamed Meguedmi, fondateur de LagazetteIA.

Points clés 1. SubQ atteint 98 % de score Appen sur des fenêtres de contexte de 6 et 12 millions de tokens. 2. Le modèle décroche 89,7 % sur LiveCodeBench, dans la même zone que les meilleurs modèles de code. 3. Le coût d’exécution annoncé est de 8 dollars contre 2 600 dollars pour Opus 4 d’Anthropic, soit un ratio supérieur à 320. 4. L’architecture est présentée comme subquadratique : l’attention classique du Transformer impose près de 50 millions de multiplications pour un texte de 10 000 mots. 5. La controverse est ouverte : un observateur cité par MIT Technology Review parle d’une « rupture comparable à celle du Transformer » ou d’un « Theranos de l’IA ».

Sommaire

L’annonce qui divise la communauté IA

Quand Subquadratic révèle les résultats de SubQ, la réaction n’est pas l’enthousiasme attendu. Sur les forums spécialisés et les fils de discussion d’ingénieurs, la première vague d’analyses penche du côté de l’incrédulité. Le coût d’exécution avancé — « It cost us eight dollars » — paraît trop bas, le score de 98 % sur 12 millions de tokens trop élevé, la promesse d’une rupture architecturale trop ronde. Un observateur cité par MIT Technology Review résume l’humeur : « SubQ is either the biggest breakthrough since the Transformer … or it’s AI Theranos. » L’éditeur reconnaît rapidement l’embarras post-publication : « We expected healthy skepticism. » C’est la diffusion d’un rapport indépendant signé Appen qui rebat les cartes, ramenant la conversation sur le terrain des benchmarks tiers, et obligeant l’industrie à regarder la promesse en face plutôt qu’à la balayer d’un revers de manche.

La thèse : la complexité quadratique a fait son temps

L’angle de Subquadratic est limpide. Le Transformer, architecture dominante depuis le papier fondateur « Attention Is All You Need », souffre d’un défaut natif : l’attention y croît en O(n²) avec la longueur de séquence. Plus la fenêtre de contexte s’allonge, plus le coût d’exécution explose. SubQ revendique une complexité moindre — la marque même de son nom — et adosse cette promesse à trois métriques publiques : long-contexte, code, coût. La question pour le marché n’est plus si l’attention quadratique sera dépassée, mais quand, par qui, et à quelles conditions de vérifiabilité indépendante.

D’« Attention Is All You Need » au mur du quadratique

Le papier « Attention Is All You Need » a fait davantage qu’introduire une architecture : il a redéfini la grammaire de l’IA moderne. En remplaçant les récurrences et les convolutions par un mécanisme d’auto-attention, ce travail fondateur a permis le passage à l’échelle qui a engendré GPT, Claude, Gemini, Mistral et la grande majorité des modèles déployés aujourd’hui. L’attention est devenue la brique universelle, le standard de facto, la base sur laquelle l’industrie a empilé paramètres, données et capex.

Le revers de cette élégance, l’industrie l’a découvert au fur et à mesure qu’elle a voulu allonger les fenêtres de contexte. Le mécanisme d’attention compare chaque token à tous les autres : son coût mémoire et son coût de calcul croissent comme le carré de la longueur de séquence. Doubler le contexte multiplie l’effort par quatre. Décupler la longueur le multiplie par cent. L’illustration la plus parlante, rapportée par MIT Technology Review, est arithmétique : un texte de 10 000 mots déclenche près de 50 millions de multiplications individuelles dans une passe d’attention standard. La métrique n’est pas une caricature, c’est la conséquence directe de l’algorithme.

C’est ce mur que la course aux contextes longs a transformé en goulet d’étranglement. Pendant que les laboratoires ont rivalisé pour passer de quelques milliers à des centaines de milliers, puis au-delà du million de tokens, le facteur économique a suivi la même courbe quadratique. Chaque doublement de la fenêtre se paye au prix fort en GPU, en mémoire haute bande passante, en latence. Les optimisations algorithmiques connues ont repoussé la limite sans l’effacer, parce qu’elles n’attaquent pas la classe de complexité du problème, mais ses constantes multiplicatives. La promesse de Subquadratic est précisément de sortir de cette équation, en proposant une attention dont la complexité ne croît plus comme le carré, mais selon un régime sous-quadratique. Si elle se vérifie, ce n’est plus une optimisation de plus : c’est une bascule de régime, et la chaîne de valeur de l’inference change de pente.

L’analyse technique : ce que disent les benchmarks et ce qu’ils ne disent pas

Trois chiffres servent de pivot à la démonstration de Subquadratic. Le premier est la fenêtre de contexte de SubQ, annoncée à 12 millions de tokens — un ordre de grandeur que peu de modèles publics revendiquent, et que moins encore testent rigoureusement. Le second est le score Appen sur long-contexte : 98 % à la fois sur des fenêtres de 6 et 12 millions de tokens. Le rapport Appen précise que SubQ « sustaining near-perfect long-context retrieval at scales few models are tested at », c’est-à-dire qu’il maintient une récupération quasi parfaite à des échelles auxquelles peu de modèles sont évalués. Le troisième chiffre est le score LiveCodeBench : 89,7 % sur des problèmes de code compétitif tirés de concours réels, plaçant SubQ dans la même zone de performance que les meilleurs modèles de code du marché.

Le tableau ci-dessous synthétise les éléments publics fournis par l’éditeur, comparés à ce qui est disponible pour la référence Transformer mentionnée dans la source.

Métrique	SubQ (Subquadratic)	Référence Transformer (Opus 4, Anthropic)
Coût d’exécution affiché	8 dollars	2 600 dollars
Ratio coût	1	× 325 environ
Fenêtre de contexte testée	jusqu’à 12 millions de tokens	non communiqué dans la source
Score Appen long-context (6M et 12M)	98 %	non communiqué dans la source
Score LiveCodeBench	89,7 %	non communiqué dans la source

Le ratio coût mérite une lecture rigoureuse. Selon Dangel, qui s’exprime pour Subquadratic, l’exécution comparable d’Opus 4 d’Anthropic ressort à 2 600 dollars. La même tâche aurait coûté 8 dollars chez Subquadratic. Ce différentiel se comprend à la lumière du goulet d’étranglement quadratique : si SubQ déplace réellement la complexité de O(n²) vers un régime sous-quadratique, la mécanique économique suit. Moins de multiplications, moins de cycles GPU, moins de mémoire, moins de latence — et donc une facture d’inference qui s’effondre sur les longs contextes.

Trois zones d’ombre demeurent. La première concerne le périmètre exact des benchmarks publics : Appen valide la récupération long-contexte, LiveCodeBench atteste la performance code, mais les batteries de tests classiques ne sont pas communiquées dans les éléments disponibles à ce jour. La deuxième zone d’ombre est architecturale : les détails techniques publiés sur le mécanisme sous-quadratique sont, selon les sources disponibles à ce jour, encore parcellaires, et l’analyse indépendante par des chercheurs n’est pas arrivée à maturité. La troisième est expérimentale : un score à 98 % sur 12 millions de tokens est un résultat extrême, et la comparaison directe avec d’autres modèles à ces longueurs reste rare — Appen le souligne explicitement. C’est pour cela qu’un observateur cité par MIT Technology Review note : « That was really exciting to me, it validated their architecture », tout en ajoutant aussitôt : « But when you have kind of shocking results, it’s really not as credible when you say it yourself. »

Un dernier point technique mérite d’être souligné. Le passage d’une complexité quadratique à un régime sous-quadratique n’est pas une notion floue : elle change la pente à laquelle le coût croît avec la longueur de séquence. À fenêtre constante, l’écart avec un Transformer classique s’élargit à mesure que les contextes s’allongent. Autrement dit, la promesse de SubQ ne se joue pas tant sur les contextes courts — où l’attention classique reste compétitive — que sur les très longues séquences, là où chaque doublement de fenêtre est aujourd’hui un saut quadratique. C’est précisément à ces échelles, à 6 et 12 millions de tokens, qu’Appen a testé le modèle.

8 dollars contre 2 600 : la bascule économique de l’inference

Les implications terrain de l’écart de coût annoncé entre SubQ et Opus 4 sont structurelles. Le rapport est de 325 environ : la même charge de travail passe de 2 600 dollars à 8 dollars. Pour les directions techniques, c’est moins une question d’optimisation marginale qu’une rebatterie des cartes de la chaîne de valeur. Trois catégories d’usages sont directement concernées.

Premier usage : les pipelines d’analyse documentaire à grande échelle. Toute application qui traite des corpus longs — bibliothèques juridiques, archives médicales, dossiers d’inspection, contrats complexes — bute aujourd’hui sur le coût exponentiel des fenêtres de contexte. Si SubQ tient sa promesse, le coût marginal d’ingestion d’un dossier passe d’une variable bloquante à une variable de second rang. Deuxième usage : les agents long-horizon. Les architectures agentiques accumulent du contexte au fil de leurs étapes, et la facture grimpe vite. Une complexité sous-quadratique change la viabilité économique des agents qui doivent maintenir une mémoire de travail étendue sur plusieurs heures de raisonnement, et non plus sur quelques tours de conversation.

Troisième usage : la verticalisation métier. Les modèles spécialisés sur des corpus propriétaires (banque, santé, énergie, défense) demandent souvent de larges fenêtres pour ingérer la documentation interne dans le prompt plutôt que dans un fine-tuning coûteux. Un facteur 325 sur le coût d’inference rend économiquement praticables des déploiements aujourd’hui marginaux. Un porte-parole de Subquadratic formule l’ambition en une phrase : « We hope we’re kicking off a new age of efficiency. » L’enjeu énergétique suit la même logique : moins de multiplications signifie moins de cycles, moins de chaleur, moins de pression sur les capacités d’inference qui mobilisent une part croissante des capex IA mondiaux.

Reste que ces gains terrain dépendent d’une condition : la reproduction indépendante des chiffres avancés. Tant que la communauté n’a pas, à grande échelle, exécuté SubQ sur ses propres bancs et ses propres charges, la bascule économique reste une promesse — bien étayée par Appen, mais encore à généraliser. Les directions techniques avisées attendront probablement deux à trois rapports tiers convergents avant d’engager des migrations de pipeline. Sur ce point, la prudence n’est pas du scepticisme défensif : c’est la doctrine standard de mise en production des architectures critiques.

« Rupture comparable au Transformer ou Theranos de l’IA »

La controverse autour de SubQ ne porte pas tant sur la sincérité des chiffres que sur leur méthode de publication. Le premier reproche adressé à Subquadratic est d’avoir annoncé les performances avant de produire les benchmarks indépendants. L’éditeur le reconnaît lui-même : « In hindsight, releasing the third-party benchmarks alongside the initial announcement would have preempted much of the skepticism, which is why we’re taking the time to make sure any future results are fully verified before putting them out. » L’aveu vaut méthode : la prochaine vague de résultats sera publiée après vérification tierce, pas avant.

Le second reproche est d’ordre architectural. Les promesses de rupture sur l’attention ne sont pas nouvelles, et beaucoup ont buté sur la qualité réelle des sorties, ou sur la difficulté à passer à l’échelle au-delà de cas de figure spécifiques. Le scepticisme d’un observateur cité par MIT Technology Review condense ce risque : « SubQ is either the biggest breakthrough since the Transformer … or it’s AI Theranos. » La référence à Theranos n’est pas anecdotique : elle désigne le pattern d’une promesse extraordinaire portée par des données partiellement vérifiables, dans un secteur capable d’absorber longtemps des affirmations spectaculaires avant de les confronter. Sur le même fil, un autre observateur réagit à la lecture des benchmarks Appen : « I was like, ‘Wow, this could be a game changer,’ because models struggle with speed and inefficiency. »

Le troisième reproche est tactique. Lorsqu’un acteur émergent affirme rendre obsolète une architecture sur laquelle reposent des dizaines de milliards de dollars de capex et l’essentiel des roadmaps produit, la charge de la preuve est extrême. Un porte-parole de Subquadratic l’admet : « But when you have kind of shocking results, it’s really not as credible when you say it yourself. » Le rapport Appen est un premier élément de réponse, mais la communauté attend désormais d’autres benchmarks tiers, d’autres bancs d’évaluation, d’autres reproductions à des échelles variées.

Et après : la fin annoncée du Transformer ?

L’ambition que Subquadratic affiche pour les prochaines années est plus radicale que ses benchmarks. Un porte-parole synthétise ainsi la projection : « We don’t think anybody will be building on transformers in a few years. » L’affirmation est forte ; elle n’est pas isolée. La saturation des gains marginaux sur les benchmarks classiques, la pression économique sur les coûts d’inference, la course aux fenêtres de contexte longues, l’essor des architectures agentiques — autant de signaux convergents qui rendent l’architecture Transformer plus contestée qu’à aucun moment depuis sa parution. SubQ n’est pas le seul candidat à la succession, mais il est, à ce jour, l’un des rares à articuler une promesse chiffrée, validée en partie par un tiers, sur trois axes simultanés : contexte long, code, coût. La question ouverte à la communauté est moins celle de la possibilité d’une rupture que celle de la rigueur avec laquelle elle sera vérifiée.

FAQ

Qu’est-ce que SubQ et qu’a-t-il de différent ?

SubQ est le modèle de langage de la startup Subquadratic. Son apport revendiqué est une attention dite sous-quadratique, par opposition à la complexité en O(n²) du Transformer. Le modèle revendique une fenêtre de contexte allant jusqu’à 12 millions de tokens et un score Appen de 98 % sur la récupération long-contexte à cette échelle, là où peu de modèles sont testés.

Que vaut le coût annoncé de 8 dollars contre 2 600 dollars pour Opus 4 ?

Selon Dangel, qui s’exprime pour Subquadratic, une charge comparable coûte 2 600 dollars sur Opus 4 d’Anthropic contre 8 dollars sur SubQ, soit un ratio d’environ 325. Ce différentiel reflète le passage présumé d’un régime quadratique à un régime sous-quadratique sur l’attention. Sa généralisation reste à confirmer par des reproductions tierces à grande échelle.

Pourquoi parle-t-on de « Theranos de l’IA » ?

Un observateur cité par MIT Technology Review résume la controverse en deux possibilités : « SubQ is either the biggest breakthrough since the Transformer … or it’s AI Theranos. » Le parallèle vise l’écart possible entre des annonces spectaculaires et leur vérification effective, pas une accusation de fraude. Le rapport Appen apporte un premier élément de validation indépendant, mais la communauté attend confirmation.

SubQ remplace-t-il déjà le Transformer ?

Non. Subquadratic affirme que « We don’t think anybody will be building on transformers in a few years », mais cette projection reste à l’état d’hypothèse de marché. À ce stade, la communauté attend des reproductions tierces additionnelles, l’évaluation par d’autres benchmarks et la diffusion détaillée du mécanisme architectural avant de tirer une conclusion solide.

Sources – MIT Technology Review, A startup claims it broke through a bottleneck that’s holding back LLMs, 19 juin 2026 — https://www.technologyreview.com/2026/06/19/1139313/a-startup-claims-it-broke-through-a-bottleneck-thats-holding-back-llms/ – Rapport Appen sur la récupération long-contexte de SubQ (cité par MIT Technology Review, 19 juin 2026) – Papier fondateur « Attention Is All You Need » (cité par MIT Technology Review, 19 juin 2026)

Mes lectures

Newsletter IA

SubQ : 12M tokens à 8 $ et l’ère post-Transformer s’ouvre

L’annonce qui divise la communauté IA

La thèse : la complexité quadratique a fait son temps

D’« Attention Is All You Need » au mur du quadratique

L’analyse technique : ce que disent les benchmarks et ce qu’ils ne disent pas

8 dollars contre 2 600 : la bascule économique de l’inference

« Rupture comparable au Transformer ou Theranos de l’IA »

Et après : la fin annoncée du Transformer ?

FAQ

Qu’est-ce que SubQ et qu’a-t-il de différent ?

Que vaut le coût annoncé de 8 dollars contre 2 600 dollars pour Opus 4 ?

Pourquoi parle-t-on de « Theranos de l’IA » ?

SubQ remplace-t-il déjà le Transformer ?

Mohamed Meguedmi

Guides & Thèmes

Mes lectures

Newsletter IA

L’annonce qui divise la communauté IA

La thèse : la complexité quadratique a fait son temps

D’« Attention Is All You Need » au mur du quadratique

L’analyse technique : ce que disent les benchmarks et ce qu’ils ne disent pas

8 dollars contre 2 600 : la bascule économique de l’inference

« Rupture comparable au Transformer ou Theranos de l’IA »

Et après : la fin annoncée du Transformer ?

FAQ

Qu’est-ce que SubQ et qu’a-t-il de différent ?

Que vaut le coût annoncé de 8 dollars contre 2 600 dollars pour Opus 4 ?

Pourquoi parle-t-on de « Theranos de l’IA » ?

SubQ remplace-t-il déjà le Transformer ?

Articles similaires

Mohamed Meguedmi

L'IA chaque semaine dans votre boîte

Pour aller plus loin

Ambani : 500M d’utilisateurs visés pour Jio Call Agent

OpenAI : analytics d’usage et contrôles de dépenses pour entreprises

Snap : l’IA vidéo devient Dotmo pour réduire les coûts

L'actu IA chaque semaine

Guides & Thèmes