Mes lectures 0

Mes lectures

IA Générale

Hy3 surclasse OpenRouter à 0,066 $/M tokens — la guerre des prix bascule

Un modèle de langage dont l'origine reste partiellement opacifiée occupe la première place du classement OpenRouter à un tarif d'entrée affiché de 0,066 $

Couloir de salle serveurs au crépuscule, silhouette d'un technicien de dos au loin, lumières émeraude sur acier brossé.
📋 En bref
Un modèle de langage dont l'origine reste partiellement opacifiée occupe la première place du classement OpenRouter à un tarif d'entrée affiché de 0,066 $
  • Un classement qui bascule sans prévenir
  • La thèse : l'avantage ne vient plus du modèle, mais de la facture
  • Contexte historique : du paramètre roi à l'input dominant
  • Analyse technique : trois prix, trois mondes

Un modèle de langage dont l’origine reste partiellement opacifiée occupe la première place du classement OpenRouter à un tarif d’entrée affiché de 0,066 $ par million de tokens. Derrière cette anomalie tarifaire, la structure même de la facturation des grands modèles bascule : 98 % des coûts d’API sont désormais concentrés sur les tokens d’entrée, et la bataille se joue dans une variable que peu d’observateurs scrutent — le coût de lecture du cache.

🤖 Transparence IA — Cet article a été rédigé avec l'assistance d'outils d'IA générative à partir de sources primaires identifiées, puis relu et validé par Mohamed Meguedmi, fondateur de LagazetteIA.

Points clés 1. Hy3 preview est exposé via l’API OpenRouter à 0,066 $ par million de tokens d’entrée, un tarif inférieur à celui affiché par le tenant du titre, DeepSeek V4 Flash. 2. Le coût effectif de Hy3 preview, mesuré en intégrant un cache read facturé 44 % du prix d’entrée par SiliconFlow, ressort à 0,034 $ par million de tokens. 3. DeepSeek, opérateur historique de son propre modèle, descend à 0,018 $ par million de tokens en facturant son cache read à 0,83 % seulement du coût d’entrée. 4. Deux nouveaux modèles, dont Hy3, dépassent désormais Claude en volume de tokens routés sur OpenRouter de plus de 50 %, signalant un déplacement net de la demande. 5. Dans les API contemporaines, la ventilation des coûts atteint 98 % d’input pour 2 % d’output, transformant la maîtrise du cache en variable centrale de la compétitivité.

Un classement qui bascule sans prévenir

Le 26 mai 2026, le blog technique de l’analyste Max Woolf publie une note sobrement intitulée The mysterious Hy3 LLM is topping OpenRouter Model Rankings by a large margin. L’observation est factuelle : un modèle baptisé Hy3, accessible en preview via l’agrégateur d’API OpenRouter, s’installe largement en tête d’un classement jusque-là dominé par DeepSeek V4 Flash et, plus loin derrière, par les déclinaisons de Claude. La marge n’est pas symbolique. Sur les courbes de tokens routés, la marche est nette.

Ce qui frappe n’est pas tant l’apparition d’un challenger — la cadence des sorties rend l’événement quasi mensuel — que l’absence de communication officielle qui l’entoure. Hy3 surgit, capte l’usage, et impose son nom dans des graphes que les développeurs consultent quotidiennement avant même que ses spécifications complètes ne soient documentées de manière exhaustive. La trajectoire est suffisamment atypique pour que l’on s’arrête sur la mécanique économique qui la rend possible.

La thèse : l’avantage ne vient plus du modèle, mais de la facture

L’angle de ce dossier tient en une phrase : Hy3 n’est pas en tête parce qu’il serait, en termes de capacités brutes, hors d’atteinte de ses concurrents directs. Il y est parce que son prix d’entrée affiché est plus bas que celui des modèles déjà perçus comme les moins onéreux du marché, et parce que le segment de la demande qui s’oriente vers OpenRouter est devenu, en 2026, hyper-sensible au coût marginal du token d’entrée. La performance se joue désormais à la troisième décimale du prix.

Contexte historique : du paramètre roi à l’input dominant

Pour saisir pourquoi un écart de quelques centièmes de dollar par million de tokens peut redessiner un classement, il faut revenir sur la mutation discrète qui a traversé l’écosystème des grands modèles depuis 2023. Pendant la première phase de l’ère générative, la concurrence portait sur la taille des paramètres, la fenêtre de contexte et les benchmarks académiques. Les comparaisons se faisaient à coups de scores MMLU, HumanEval ou GSM8K, et le grand public retenait des courbes ascendantes plus que des grilles tarifaires.

Cette grammaire a vacilléau fur et à mesure que les usages réels se sont stabilisés. L’essor des agents de programmation, des copilotes intégrés aux IDE et des pipelines de retrieval-augmented generation a déplacé la charge utile vers des prompts massifs, souvent réinjectés à l’identique ou par fragments quasi inchangés. Le résultat se lit aujourd’hui dans une statistique frappante relayée par l’analyse de Max Woolf : sur l’agrégat des appels d’API mesurés, la ventilation atteint 98 % d’input pour 2 % d’output. La génération, longtemps perçue comme le cœur de la valeur, est devenue, en volume facturé, une décimale.

La conséquence directe est mécanique. Quand 98 % du coût se concentre sur l’input, la moindre variation tarifaire sur ce poste produit un effet de levier considérable sur la facture mensuelle d’un éditeur de produit. Et lorsque la majorité de ces inputs sont mis en cache — parce qu’ils correspondent à des contextes systèmes répétés, à des fichiers de codebase rechargés en boucle ou à des prompts d’agents standardisés — la véritable variable d’arbitrage devient le tarif de relecture de ce cache. Un poste invisible pour le grand public, central pour les équipes de production.

DeepSeek a été la première entreprise à exploiter agressivement cette inversion. En proposant son modèle V4 Pro avec un coût de cache read équivalent à 0,83 % du coût d’input lorsqu’il est servi par DeepSeek elle-même, l’éditeur chinois a établi un nouveau plancher économique. Les concurrents qui appliquaient la convention historique — un cache read facturé autour de 10 % du coût d’input, norme retenue par OpenAI, Anthropic et Google Gemini — se sont retrouvés, sans changer un caractère de leur grille publique, soudain perçus comme chers. Le terrain était préparé pour qu’un acteur s’engouffre dans la brèche avec une politique tarifaire encore plus disruptée. Hy3 est arrivé dans cette configuration.

Analyse technique : trois prix, trois mondes

L’analyse fine des tarifs renvoyés par OpenRouter pour les modèles aujourd’hui en tête révèle une dispersion qui mérite d’être posée dans un tableau lisible. Les chiffres ci-dessous proviennent intégralement de l’analyse publiée par Max Woolf le 26 mai 2026 ; ils sont à lire comme une photographie instantanée, susceptible d’évoluer rapidement compte tenu de la volatilité du segment.

ModèleFournisseurCoût input affichéCache readCoût effectif*
Hy3 previewSiliconFlow (via OpenRouter)0,066 $/M tokens44 % du coût d’input0,034 $/M tokens
DeepSeek V4 FlashDeepSeek (servi en direct)non communiquénon communiqué0,018 $/M tokens
DeepSeek V4 Flashautres fournisseurs (13 prestataires)variable20 à 50 % du coût d’inputvariable
DeepSeek V4 ProDeepSeek (servi en direct)non communiqué0,83 % du coût d’inputnon communiqué
OpenAI / Anthropic / Gemini (référence)éditeurs directsnon communiquéenviron 10 % du coût d’inputnon communiqué

*Coût effectif estimé pour un usage à fort taux de cache hit, conformément aux hypothèses retenues dans l’analyse source.

Trois enseignements émergent de ce tableau. Le premier tient à la dispersion verticale des tarifs : entre les 0,018 $ par million de tokens annoncés pour DeepSeek V4 Flash servi par DeepSeek et un coût effectif de 0,034 $ pour Hy3 preview, l’écart est de quasi un facteur deux. Autrement dit, le modèle qui prend la tête du classement n’est pas le moins cher en valeur effective. Il est le moins cher en prix d’entrée affiché, ce qui correspond exactement au signal que les développeurs scannent lorsqu’ils sélectionnent un endpoint dans OpenRouter.

Le deuxième enseignement concerne le rôle des intermédiaires. Lorsqu’un modèle est servi par un fournisseur tiers — ici SiliconFlow, mais le constat se généralise aux treize prestataires qui exposent DeepSeek V4 Flash — la marge de manœuvre sur le cache read se réduit. Les économies d’échelle ne sont pas identiques, et le cache read se retrouve facturé entre 20 % et 50 % du coût d’input, contre moins de 1 % pour l’éditeur en direct. Cette structure crée une asymétrie compétitive durable : un opérateur capable de servir son propre modèle sur son propre cluster encaisse un avantage marginal que ses revendeurs ne peuvent pas répliquer.

Le troisième enseignement, plus subtil, concerne la lecture que les développeurs font des grilles. Le coût d’input affiché demeure le signal dominant dans la phase de comparaison rapide, alors même que le coût effectif intégrant le cache devrait, en bonne rigueur économique, primer pour tout usage volumique. Cette dissonance entre le prix sélectionné par l’œil et le prix payé par la trésorerie crée une rente d’optimisation pour les modèles capables d’afficher un coût d’input bas, quitte à pratiquer un cache read élevé. Hy3 illustre exactement cette mécanique.

Un dernier élément quantitatif mérite d’être mis en avant : sur OpenRouter, deux nouveaux modèles — dont Hy3 — dépassent désormais Claude en volume de tokens routés de plus de 50 %. La marge n’est plus discutable. Sur le segment couvert par l’agrégateur, le leadership en volume change de mains, et il change de mains au moment précis où la grille tarifaire de Hy3 entre en visibilité publique. La corrélation ne suffit pas à établir la causalité, mais elle pèse lourd dans le faisceau.

Impact terrain : ce que les équipes produits constatent

Pour les directions techniques qui exploitent des LLM en production, la mutation décrite ne relève plus du débat académique. Elle se traduit en lignes de facturation. Une équipe qui aurait calé son architecture d’agent sur un modèle facturé 0,15 $ par million de tokens en 2025, avec un cache read à 10 %, peut aujourd’hui basculer vers Hy3 preview en obtenant, pour un usage à forte récurrence de contexte, un coût effectif environ quatre fois inférieur. La décision n’est pas neutre lorsque les volumes mensuels se comptent en milliards de tokens.

Trois familles d’usage concentrent le gain. Les pipelines de retrieval-augmented generation, qui rechargent le même corpus documentaire à chaque requête, exploitent à plein le cache. Les agents de programmation, qui réinjectent en boucle le code-source et les conventions de projet, suivent la même logique. Les copilotes conversationnels avec historique persistant, enfin, voient leur ratio input/output évoluer vers les chiffres extrêmes constatés à l’échelle de l’écosystème — 98 % d’input, 2 % d’output —, ce qui rend leur coût total presque entièrement déterminé par la politique de cache du fournisseur retenu.

DeepSeek a perçu cette opportunité et tenté d’y répondre en lançant sa propre plateforme d’agent de codage adossée à V4 Flash, avec une promesse de tarification fondée sur un cache agressif. La grille présentée annonce un coût d’input réduit de moitié, mais associé à un cache read fixé à 20 %, soit un niveau sensiblement supérieur aux 0,83 % du V4 Pro servi en direct. L’analyse de Max Woolf souligne que, sur ce paramétrage, il n’est pas évident que le compte y soit pour le client final, comparativement à l’usage d’une clé d’API DeepSeek classique routée vers un agent tiers. Le terrain de jeu se déplace désormais sur des arbitrages de troisième ordre.

Les conséquences se mesurent aussi dans la dépendance contractuelle. Choisir Hy3 preview aujourd’hui, c’est arbitrer en faveur d’un modèle dont l’origine et la roadmap restent partiellement documentées, servi par un fournisseur tiers, sur la base d’une grille tarifaire dont la pérennité n’est pas garantie. Les équipes qui ont vécu les ajustements successifs des tarifications OpenAI et Anthropic depuis 2023 connaissent la mécanique : la grille de lancement n’est jamais la grille définitive. Pour les directions techniques, l’enjeu est moins de capter le tarif courant que de structurer une architecture d’abstraction permettant de pivoter sans douleur si Hy3 venait à réajuster sa politique. OpenRouter, précisément, joue ce rôle d’abstracteur.

L’effet de réseau s’enclenche par ailleurs côté observabilité. Un modèle qui prend la tête d’OpenRouter capte non seulement de la facturation, mais aussi un volume statistique permettant à son éditeur d’affiner ses propres tableaux de bord d’usage, ses biais de génération et son corpus d’évaluation. Ce phénomène, déjà observé à l’époque où GPT-4 et Claude 3 captaient l’essentiel de la demande développeur, crée un cercle où le leader temporaire consolide sa propre infrastructure de feedback. Hy3, en s’installant durablement en tête, gagne du temps de telemetry qu’il faudrait des semaines à un concurrent pour rattraper.

Perspectives contradictoires : la lecture inverse

Le récit qui précède peut être lu dans l’autre sens, et plusieurs objections sérieuses méritent d’être posées. La première tient au caractère partiel des données mobilisées. OpenRouter, malgré son adoption rapide, ne reflète pas l’intégralité du marché. Les grands comptes restent majoritairement sur des contrats directs avec OpenAI, Anthropic, Google et Microsoft, où les grilles publiques ne s’appliquent pas. Un classement OpenRouter mesure donc un segment précis — développeurs indépendants, scale-ups, équipes innovation — dont le comportement n’est pas extrapolable à l’ensemble de l’usage entreprise des LLM.

La seconde objection porte sur la nature même de la métrique « tokens routés ». Le volume ne dit rien de la valeur générée. Un modèle bon marché utilisé pour des tâches massives à faible valeur ajoutée peut dominer en volume sans pour autant supplanter ses concurrents sur les cas d’usage à fort enjeu. Les développeurs qui privilégient Hy3 pour un agent de classification documentaire n’arbitreront pas nécessairement de la même manière pour un assistant juridique ou médical. La hiérarchie observée sur OpenRouter ne préjuge pas du leadership sur les segments verticaux à plus forte exigence de fiabilité.

La troisième objection est d’ordre méthodologique. L’analyse source met elle-même en garde sur la dispersion des tarifs entre fournisseurs, qualifiée d’« all over the place ». Les comparaisons à grille équivalente exigent de comparer des coûts effectifs intégrant cache read, latence, disponibilité, garanties de SLA et trajectoire des prix. À ce stade, Hy3 preview est exactement ce que son nom indique : une preview, dont la version stabilisée pourrait afficher une tarification différente. Bâtir une thèse économique sur un instantané tarifaire est intellectuellement périlleux.

Enfin, le rôle de DeepSeek mérite une lecture plus nuancée que celle d’un challenger désormais relégué. Le modèle V4 Pro de DeepSeek, avec son cache read à 0,83 %, reste le point le plus avancé du marché en matière de discount sur la relecture de cache. La question de savoir si Hy3 conservera son avance dès lors que la grille effective sera comparée à coûts complets — et non sur le prix d’entrée affiché — demeure ouverte. Plusieurs observateurs, dont l’auteur de l’analyse source, suggèrent que la course pourrait s’inverser à mesure que les usages s’orientent vers des contextes à très haute redondance.

Prospective : trois lignes à surveiller

Trois indicateurs vont structurer la suite. Le premier est la stabilisation tarifaire de Hy3 à la sortie de la phase preview. Le passage d’un prix d’entrée à un prix commercial standard a historiquement entraîné des hausses de 20 à 40 % chez les éditeurs précédents. Si Hy3 maintient son tarif actuel, le signal envoyé au marché sera celui d’une politique de captation durable. S’il s’aligne sur les pratiques de la concurrence, l’épisode aura été un coup de projecteur, pas un changement de paradigme.

Le deuxième indicateur concerne la documentation et la transparence sur l’identité et l’architecture du modèle. À ce jour, les caractéristiques techniques détaillées de Hy3 ne sont pas, selon les sources disponibles, exhaustivement publiées. Le marché entreprise français, particulièrement sensible aux questions de gouvernance des données et d’auditabilité, attendra des précisions sur la juridiction d’hébergement, le régime de propriété et les politiques de rétention avant tout engagement contractuel sérieux.

Le troisième indicateur est la réponse des éditeurs occidentaux. OpenAI, Anthropic et Google Gemini maintiennent un cache read autour de 10 % du coût d’input. Cette norme tiendra-t-elle face à un écart effectif désormais d’un ordre de grandeur ? L’histoire récente du secteur suggère que les grilles ne bougent pas tant que les volumes premium ne basculent pas. Si OpenRouter devient un thermomètre de référence — et il s’en rapproche —, la pression pourrait s’exercer plus rapidement qu’anticipé.

Une question reste ouverte, qui dépasse le cas Hy3 : à quel moment la concurrence par les prix devient-elle indissociable d’une concurrence par la qualité ? Tant que les benchmarks objectifs ne placent pas Hy3 et DeepSeek sur le même plan que Claude et GPT pour les usages critiques, l’arbitrage par le tarif domine la conversation. Le jour où les écarts de qualité se resserrent, la grille tarifaire pourrait redevenir secondaire. Ce point d’inflexion n’est pas pour aujourd’hui — mais il se rapproche.

FAQ

Pourquoi Hy3 domine-t-il OpenRouter sans avoir publié de spécifications complètes ?

Le classement OpenRouter mesure le volume de tokens routés vers chaque modèle, pas la qualité documentée de son architecture. Hy3 preview se distingue par un prix d’entrée affiché de 0,066 $ par million de tokens, inférieur à celui des concurrents directs. Pour de nombreux développeurs comparant les endpoints, ce signal tarifaire suffit à déclencher l’adoption, indépendamment de la documentation technique disponible.

Hy3 est-il réellement moins cher que DeepSeek V4 Flash ?

Sur le prix d’entrée affiché, oui : 0,066 $ par million de tokens pour Hy3 contre un tarif présenté comme supérieur pour DeepSeek V4 Flash via OpenRouter. Mais en coût effectif intégrant le cache read, Hy3 preview ressort à 0,034 $ par million de tokens via SiliconFlow, là où DeepSeek V4 Flash servi directement par DeepSeek descend à 0,018 $. Le « moins cher » dépend du périmètre retenu.

Que change la statistique des 98 % d’input pour 2 % d’output ?

Elle inverse l’attention portée par les équipes produits. Pendant la première vague de l’IA générative, l’optimisation portait sur la génération. Aujourd’hui, presque toute la facture se joue sur le prompt d’entrée, et plus précisément sur sa partie cachée. La politique de cache read d’un fournisseur devient la principale variable de coût total, devançant la performance brute du modèle dans les arbitrages d’architecture.

Faut-il basculer ses agents en production sur Hy3 ?

La décision dépend de la tolérance au risque opérationnel. Hy3 est en preview, son éditeur communique peu, et sa grille tarifaire n’est pas contractuellement stabilisée. Pour des usages non critiques où la portabilité via OpenRouter est facile, l’expérimentation est rationnelle. Pour des charges de production sensibles, l’arbitrage doit intégrer le risque de réajustement tarifaire et d’évolution de la disponibilité.


Encadré sources

Avatar photo
À propos de l'auteur

Mohamed Meguedmi

Je suis Mohamed Meguedmi, fondateur et directeur éditorial de LagazetteIA. Multi-entrepreneur passionné de tech depuis toujours, j'ai intégré l'IA dans chacune de mes entreprises dès ses débuts. Chaque semaine, je teste des dizaines d'outils IA, compare les modèles et décortique les dernières avancées pour vous donner un avis concret, sans bullshit. Mon objectif avec LagazetteIA : vous faire gagner du temps et vous aider à prendre les bonnes décisions dans cette révolution technologique. La rédaction s'appuie sur des outils d'analyse modernes (incluant l'IA générative) et chaque publication est vérifiée et validée par mes soins avant mise en ligne. Profil LinkedIn : https://www.linkedin.com/in/mohamed-meguedmi/