SubQ : anatomie d'une attention sous-quadratique qui veut enterrer le Transformer

📋 En bref

Le 5 mai 2026, la jeune pousse américaine Subquadratic a dévoilé SubQ, un modèle qui revendique 12 millions de tokens de contexte et des performances jusqu

▸ Une annonce qui touche un nerf rarement exposé
▸ La thèse
▸ Contexte historique : la longue marche vers le contexte long
▸ Analyse technique : ce que veut dire « sous-quadratique »

Le 5 mai 2026, la jeune pousse américaine Subquadratic a dévoilé SubQ, un modèle qui revendique 12 millions de tokens de contexte et des performances jusqu’à 52 fois supérieures à FlashAttention sur un million de tokens. La promesse vise le talon d’Achille des grands modèles de langage : le coût quadratique de l’attention. Trois lignes de fracture, trois lectures possibles, un même verdict à instruire.

🤖 Transparence IA — Cet article a été rédigé avec l'assistance d'outils d'IA générative à partir de sources primaires identifiées, puis relu et validé par Mohamed Meguedmi, fondateur de LagazetteIA (Falcon Consulting, SIRET 89457896200025).

Points clés 1. SubQ repose sur une architecture d’attention parcimonieuse entièrement sous-quadratique, dévoilée le 5 mai 2026 par Subquadratic. 2. Le modèle revendique une fenêtre de contexte de 12 millions de tokens, soit un ordre de grandeur supérieur aux fenêtres standard du marché. 3. Sur des contextes d’un million de tokens, SubQ annonce des performances jusqu’à 52 fois supérieures à FlashAttention, la référence d’optimisation. 4. La cible n’est pas la taille des modèles mais leur moteur : la complexité de calcul et de mémoire de l’attention. 5. Si les chiffres se confirment, l’enjeu industriel se déplace du nombre de paramètres vers l’efficience du contexte long.

Sommaire

Une annonce qui touche un nerf rarement exposé

Mai 2026. Pendant que les laboratoires s’écharpent sur les dernières fractions de point de benchmark, une jeune pousse américaine choisit un autre angle d’attaque. Subquadratic ne promet pas un modèle plus intelligent. Elle promet un modèle dont la lecture coûte moins cher.

L’annonce, datée du 5 mai 2026 et rapportée par Numerama, présente SubQ comme une architecture capable de gérer des contextes très longs à coût réduit. La société revendique 12 millions de tokens de fenêtre de contexte et une accélération « jusqu’à 52 fois » par rapport à FlashAttention sur des contextes d’un million de tokens. Ces deux nombres, posés côte à côte, dessinent une promesse précise : non pas changer ce que le modèle sait, mais changer la quantité de matière qu’il peut lire d’un seul tenant sans s’effondrer en coût.

C’est un déplacement d’attention, au sens propre.

La thèse

L’industrie a passé trois ans à optimiser le numérateur — la qualité des sorties — et a laissé filer le dénominateur — le coût du contexte. SubQ s’attaque au moteur, pas à la carrosserie. Si la revendication tient, le différentiel concurrentiel des prochains mois ne se jouera pas sur la taille du modèle ni sur la fraîcheur du dataset, mais sur la capacité à servir des contextes longs sans facturation prohibitive. La position est défendable, mais elle reste à l’état de revendication d’éditeur tant qu’aucun benchmark indépendant n’a été publié.

Contexte historique : la longue marche vers le contexte long

Il faut remonter à 2017 pour comprendre l’enjeu. L’article Attention Is All You Need, signé par une équipe de Google, fonde le mécanisme d’attention au cœur de l’architecture Transformer. Ce mécanisme assigne à chaque mot d’une séquence une mesure de pertinence par rapport à tous les autres mots de la même séquence. Cette opération est puissante. Elle est aussi, structurellement, coûteuse.

Dans un Transformer classique, chaque mot doit être comparé à tous les autres mots présents dans la fenêtre de contexte afin de déterminer lesquels sont les plus pertinents pour produire le mot suivant. Cette comparaison croisée a une propriété mathématique simple et redoutable : son coût croît avec le carré du nombre de mots. Doublez le contexte, vous quadruplez la charge. Multipliez-le par dix, vous la multipliez par cent. C’est ce que les ingénieurs nomment la complexité quadratique.

Pendant cinq ans, l’industrie a vécu avec cette contrainte en travaillant sur les bords. FlashAttention, publié en 2022 puis révisé en 2023, a réordonné les calculs pour les rendre plus amicaux avec la mémoire des cartes graphiques. Les fenêtres glissantes, l’attention locale, les variantes à mémoire compressée ont étendu les contextes utilisables sans abolir la pénalité quadratique.

Le saut suivant a été quantitatif. Anthropic, OpenAI, Google ont successivement repoussé les fenêtres de 8 000 tokens à 32 000, puis 128 000, puis le million. Ces gains ont été obtenus à grand renfort d’optimisations système et de matériel dédié, sans que la racine du problème — la complexité quadratique — ne soit remise en cause.

C’est précisément cette racine que SubQ revendique d’attaquer. La société se définit elle-même par son nom : Subquadratic, sous-quadratique. Le programme est dans la marque.

La transition vers cette nouvelle classe d’architectures a été préparée, sur le plan théorique, par toute une famille de travaux. Les modèles à espace d’états, les architectures linéaires, les mécanismes d’attention parcimonieuse — c’est-à-dire qui ne calculent pas l’ensemble des comparaisons mais sélectionnent les plus utiles — ont alimenté une littérature dense. SubQ s’inscrit dans cette filiation. La nouveauté n’est pas l’idée. La nouveauté est la revendication d’un saut de performance chiffré.

Analyse technique : ce que veut dire « sous-quadratique »

Pour comprendre l’annonce, il faut décomposer trois termes : la complexité, la parcimonie, la fenêtre.

La complexité. Lorsqu’un modèle traite une séquence de N tokens, son attention complète exige de l’ordre de N² opérations. Sur un contexte de 1 000 tokens, cela représente un million d’opérations. Sur un contexte d’un million de tokens, cela représente mille milliards d’opérations. Le problème : cette opération d’attention devient extrêmement coûteuse lorsque le contexte s’allonge. La courbe ne monte pas, elle décolle.

Une architecture sous-quadratique vise une complexité strictement inférieure à N². Les régimes intermédiaires existent : N × log(N), N × racine de N, voire N linéaire. Le qualificatif retenu par Subquadratic — « entièrement sous-quadratique » — laisse entendre que la totalité du calcul d’attention, et non un sous-ensemble, échappe à la pénalité quadratique.

La parcimonie. Subquadratic décrit son moteur comme reposant « sur une architecture d’attention parcimonieuse entièrement sous-quadratique ». L’« attention parcimonieuse » désigne une famille de techniques où le modèle ne compare pas chaque mot à tous les autres, mais sélectionne dynamiquement un sous-ensemble pertinent. L’image utile : au lieu d’écouter mille conversations en simultané pour repérer une information, le modèle apprend à identifier les quelques conversations qui comptent pour la phrase qu’il est en train d’écrire. La promesse n’est pas de tout lire, mais de lire ce qui sert.

La fenêtre. Subquadratic affirme pouvoir gérer jusqu’à 12 millions de tokens de contexte. À titre de comparaison, voici les ordres de grandeur des fenêtres de contexte revendiquées par les principales architectures, telles qu’annoncées par leurs éditeurs.

Architecture / produit	Fenêtre de contexte revendiquée	Type d’attention
Transformer original (2017)	de l’ordre de 512 tokens	Attention complète quadratique
Modèles grand public 2023	de l’ordre de 32 000 à 128 000 tokens	Attention complète quadratique optimisée
Frontière 2024-2025	de l’ordre de 1 à 2 millions de tokens	Attention complète quadratique avec FlashAttention
SubQ (Subquadratic, mai 2026)	jusqu’à 12 millions de tokens	Attention parcimonieuse sous-quadratique

Source : annonces des éditeurs respectifs ; Numerama (6 mai 2026) pour SubQ.

Le saut revendiqué — d’un ordre de grandeur sur la fenêtre, jusqu’à 52 fois sur la vitesse à un million de tokens face à FlashAttention — est ce qui rend l’annonce notable. FlashAttention n’est pas un concurrent quelconque : c’est l’optimisation de référence sur laquelle reposent en pratique la plupart des serveurs d’inférence modernes. Battre cette base par un facteur 52 sur un régime de contexte long, c’est revendiquer un déplacement de la frontière, pas un ajustement.

Reste qu’une revendication chiffrée d’éditeur n’est pas une mesure indépendante. Le rapport publié à ce stade ne précise pas, dans la matière publique disponible, le matériel utilisé, la précision numérique, la nature du modèle de référence FlashAttention comparé, ni la définition exacte de « performance » — débit en tokens par seconde, latence au premier token, consommation mémoire ? Cette lacune est attendue à l’heure de l’annonce ; elle reste un pré-requis pour transformer la promesse en référence.

Comme l’illustre la trajectoire des fenêtres de contexte, le saut de Subquadratic se lit moins comme une incrément que comme un changement de régime — à condition que les benchmarks indépendants confirment le chiffre.

Impact terrain : ce qui change dans la chaîne de valeur

L’enjeu n’est pas académique. Le coût du contexte est devenu, depuis 2024, l’une des principales lignes de dépense des entreprises qui industrialisent les LLM. Trois cas d’usage en mesurent directement les conséquences.

Le premier cas est l’ingestion documentaire. Un cabinet juridique, un service de conformité réglementaire, une équipe de revue clinique manipulent des corpus dont la taille pousse les fenêtres de contexte standard dans leurs derniers retranchements. Avec un contexte d’un million de tokens, on tient déjà l’équivalent d’environ 750 000 mots — soit, en ordre de grandeur, plusieurs milliers de pages. Avec 12 millions de tokens, l’unité de mesure n’est plus le dossier mais la base documentaire. Le compromis classique — segmenter le corpus, indexer, recomposer — perd de sa raison d’être lorsque le modèle peut tenir l’intégralité du contexte d’un seul tenant.

Le deuxième cas est le code. Les bases logicielles d’envergure professionnelle dépassent fréquemment le million de lignes. Un agent capable de raisonner sur l’intégralité d’un dépôt sans le découper en fragments réduit la perte d’information liée au tronçonnage. Le gain n’est pas d’écrire plus vite. Il est de mieux comprendre les dépendances transversales, les invariants, les conventions internes qui ne se révèlent qu’à l’échelle de la base entière.

Le troisième cas est l’agentique. Un agent qui interagit longuement avec un environnement — quelques heures de session, plusieurs centaines d’outils invoqués, des journaux à interpréter — accumule un historique qui sature les fenêtres standard. La capacité à conserver l’intégralité de la trajectoire dans le contexte change la nature du raisonnement de long terme. Là où les implémentations actuelles compressent, résument, tronquent, une architecture sous-quadratique peut envisager de tout conserver.

Dans les trois cas, l’effet recherché est le même : faire passer une opération « techniquement possible mais économiquement marginale » dans le régime « routine industrielle ». C’est sur ce point précis que se situe le différentiel commercial. Le chiffre revendiqué de 52 fois plus rapide que FlashAttention, s’il se confirmait, signifierait à coût matériel constant un coût d’inférence par token de contexte long divisé d’un facteur d’ordre comparable. C’est cette arithmétique, plus que la fenêtre brute, qui intéresse les directions techniques.

Une mise en garde, cependant. Disposer d’un contexte long ne suffit pas à raisonner correctement à l’échelle de ce contexte. Les benchmarks de récupération à longue portée, dits needle in a haystack, ont montré depuis 2024 que les modèles à grande fenêtre n’utilisent pas uniformément l’information qu’ils contiennent. La taille de la fenêtre est une condition nécessaire, pas suffisante. Subquadratic devra démontrer, au-delà de la vitesse, la qualité de l’usage qui en est fait.

Perspectives contradictoires : trois lectures sceptiques

L’annonce, prise au pied de la lettre, est notable. Elle appelle néanmoins trois objections sérieuses.

Première objection : le précédent des architectures alternatives. Depuis 2020, plusieurs familles d’architectures ont annoncé des complexités sous-quadratiques avec des bénéfices spectaculaires sur le papier. Les modèles à espace d’états, les attentions linéaires, les variantes à mémoire récurrente ont chacune connu un cycle d’enthousiasme suivi d’une désillusion lorsque les performances en aval — qualité des réponses, robustesse, capacité de raisonnement — se sont avérées en deçà des Transformers classiques. La leçon est qu’un gain de complexité ne se transforme pas mécaniquement en gain de qualité. SubQ devra démontrer que sa parcimonie ne dégrade pas la précision sur les tâches usuelles.

Deuxième objection : la nature des benchmarks revendiqués. Le facteur 52 par rapport à FlashAttention est revendiqué « sur des contextes d’un million de tokens ». La précision est utile, mais incomplète. Un gain de cette ampleur sur un seul régime de contexte n’implique pas un gain équivalent sur les régimes plus courts, qui restent statistiquement majoritaires en production. La question pratique pour un acheteur est simple : quelle est la courbe de performance complète, du contexte de 1 000 tokens au contexte de 12 millions ? Un modèle plus lent sur les contextes courts et beaucoup plus rapide sur les contextes longs n’a pas la même valeur qu’un modèle uniformément plus rapide.

Troisième objection : la distance entre prouesse technique et adoption industrielle. Les directions techniques ne basculent pas sur une nouvelle architecture sur la foi d’un communiqué. Les écosystèmes — bibliothèques de fine-tuning, outils d’observabilité, fournisseurs cloud, certifications de sécurité — se construisent par sédimentation. Anthropic, OpenAI, Google ont eu plusieurs années pour bâtir cette sédimentation. Une jeune pousse, fût-elle techniquement supérieure sur un axe précis, devra démontrer une stabilité opérationnelle, une économie de licence et un support qui pèsent autant que le ratio de performance.

À ces trois objections s’ajoute une zone d’ombre : ni Numerama, ni les éléments publics disponibles à ce jour ne précisent la stratégie commerciale de Subquadratic — open-weight, API propriétaire, licence d’architecture. Le mode de mise à disposition conditionnera fortement l’ampleur de l’adoption.

Prospective : le déplacement du front

Si SubQ tient ses promesses, l’industrie ne basculera pas en six mois. Elle se reconfigurera plus discrètement, sur deux axes.

Le premier axe est la spécialisation par régime. Les architectures attention-complète gardent leur pertinence pour les contextes courts à moyens, où elles bénéficient de plus d’une décennie d’optimisation. Les architectures sous-quadratiques s’imposeraient sur les régimes longs, là où le coût quadratique devient un mur. Cette segmentation ressemble à celle qu’a connue le calcul scientifique, où plusieurs paradigmes coexistent selon la classe de problème.

Le second axe est la pression sur les marges. Si un acteur de niche peut servir un million de tokens de contexte à un coût d’un ordre de grandeur inférieur, les fournisseurs établis devront soit intégrer des moteurs équivalents, soit ajuster leur tarification du contexte long. Les deux mouvements convergent vers une compression des marges sur ce segment précis. Pour les acheteurs, c’est une bonne nouvelle. Pour les acteurs établis, c’est une incitation à internaliser ou racheter les architectures sous-quadratiques avant qu’elles ne deviennent un standard ouvert.

La question ouverte demeure celle des benchmarks indépendants. Un communiqué d’éditeur, même chiffré, n’a pas la valeur d’une mesure reproductible. Les six prochains mois nous diront si SubQ est un saut de classe ou un effet d’annonce. La réponse appartient désormais à la communauté qui voudra bien tester le moteur sur ses propres charges de travail.

FAQ

Qu’est-ce que la complexité quadratique de l’attention ?

C’est la propriété par laquelle le coût de calcul de l’attention dans un Transformer croît avec le carré de la longueur du contexte. Doubler la fenêtre quadruple le coût ; la multiplier par dix la multiplie par cent. Cette pénalité est ce qui rend les contextes très longs économiquement marginaux dans l’architecture standard.

En quoi SubQ se distingue-t-il de FlashAttention ?

FlashAttention est une optimisation de l’attention complète : elle accélère le calcul sans changer sa complexité quadratique. SubQ revendique une architecture d’attention parcimonieuse sous-quadratique : elle change la complexité elle-même, pas seulement son implémentation. Subquadratic annonce un facteur jusqu’à 52 fois supérieur à FlashAttention sur des contextes d’un million de tokens.

Le contexte de 12 millions de tokens est-il utile en pratique ?

Trois cas d’usage en bénéficient directement : l’ingestion de larges corpus documentaires, le raisonnement sur des bases logicielles entières, et les agents à longue trajectoire. Disposer d’une telle fenêtre ne garantit toutefois pas que le modèle utilise uniformément l’information qu’elle contient. La qualité d’usage reste à mesurer indépendamment de la taille brute.

Faut-il considérer la fin du Transformer ?

Non, à ce stade. SubQ apporte un argument sérieux sur le régime des contextes longs, mais l’attention complète conserve son avantage sur les contextes courts à moyens et bénéficie d’un écosystème mature. Le scénario probable est une coexistence par spécialisation, pas un remplacement frontal.

Sources

Numerama, L’avenir de l’IA se joue-t-il ici ? Cette entreprise a trouvé comment contourner le plus gros défaut des LLM, 6 mai 2026 — https://www.numerama.com/tech/2248047-lavenir-de-lia-generative-se-joue-t-il-ici-son-plus-grand-defaut-a-peut-etre-ete-resolu.html
Communication officielle de Subquadratic relative au modèle SubQ, 5 mai 2026.
Pour aller plus loin sur l’écosystème et la course aux fenêtres de contexte : Anthropic et la course au million de tokens, La saturation des benchmarks LLM en 2026, Coût d’inférence : la nouvelle ligne de front.

Mes lectures

Newsletter IA

SubQ : anatomie d’une attention sous-quadratique qui veut enterrer le Transformer

Une annonce qui touche un nerf rarement exposé

La thèse

Contexte historique : la longue marche vers le contexte long

Analyse technique : ce que veut dire « sous-quadratique »

Impact terrain : ce qui change dans la chaîne de valeur

Perspectives contradictoires : trois lectures sceptiques

Prospective : le déplacement du front

FAQ

Qu’est-ce que la complexité quadratique de l’attention ?

En quoi SubQ se distingue-t-il de FlashAttention ?

Le contexte de 12 millions de tokens est-il utile en pratique ?

Faut-il considérer la fin du Transformer ?

Sources

Mohamed Meguedmi

Mes lectures

Newsletter IA

Une annonce qui touche un nerf rarement exposé

La thèse

Contexte historique : la longue marche vers le contexte long

Analyse technique : ce que veut dire « sous-quadratique »

Impact terrain : ce qui change dans la chaîne de valeur

Perspectives contradictoires : trois lectures sceptiques

Prospective : le déplacement du front

FAQ

Qu’est-ce que la complexité quadratique de l’attention ?

En quoi SubQ se distingue-t-il de FlashAttention ?

Le contexte de 12 millions de tokens est-il utile en pratique ?

Faut-il considérer la fin du Transformer ?

Sources

Articles similaires

Mohamed Meguedmi

L'IA chaque semaine dans votre boîte

Pour aller plus loin

Android et l’IA agentique : anatomie d’une bascule annoncée à I/O Edition

Pointeur de souris : anatomie d’un retour en grâce à l’ère de l’IA

Voker (YC S24) : anatomie d’une nouvelle couche d’observabilité pour agents IA

L'actu IA chaque semaine