- ▸ Un modèle inconnu prend la tête du classement
- ▸ Une grille tarifaire éclatée selon les fournisseurs
- ▸ Le cache read devient le vrai prix d'un LLM
- ▸ Ce que cela change pour les acheteurs d'API
Un modèle baptisé Hy3 preview occupe la première place du classement OpenRouter avec une avance marquée. Deux modèles, dont Hy3, consomment plus de 50 % de tokens en moins que Claude. Les prix d’entrée varient de 0,018 $ à 0,066 $ par million de tokens selon les fournisseurs.
Points clés – Hy3 preview et un second modèle battent Claude de plus de 50 % en volume de tokens, selon les classements OpenRouter relayés le 26 mai 2026. – Tarif affiché de Hy3 preview via OpenRouter : 0,066 $/1M tokens en entrée, contre 0 $ pour DeepSeek V4 Flash en tête historique. – Les coûts de lecture de cache s’étalent de 0,83 % (DeepSeek V4 Pro chez DeepSeek) à 44 % (Hy3 preview chez SiliconFlow), un écart inédit dans l’industrie. – 98 % des coûts d’API LLM proviennent désormais des tokens d’entrée, ce qui fait du cache read le vrai champ de bataille tarifaire.
Un modèle inconnu prend la tête du classement
Hy3 preview s’installe en première position du classement OpenRouter Model Rankings avec une avance large, d’après l’analyse publiée par Max Woolf le 26 mai 2026. Le modèle est disponible via l’API OpenRouter au tarif affiché de 0,066 $ par million de tokens en entrée. Deux nouveaux modèles, dont Hy3, dépassent Claude en utilisation de tokens de plus de 50 %. Aucune information officielle ne précise à ce jour l’éditeur du modèle ni son architecture sous-jacente.
Une grille tarifaire éclatée selon les fournisseurs
Le marché OpenRouter agrège plusieurs hébergeurs pour un même modèle, et les écarts deviennent vertigineux. DeepSeek, en servant directement son propre modèle V4 Flash, affiche un tarif d’entrée de 0,018 $/1M tokens. Hy3 preview, hébergé par SiliconFlow, sort à 0,066 $/1M tokens en entrée, soit près de quatre fois plus cher en valeur nominale.
Mais la comparaison brute trompe. Sur la page modèle de SiliconFlow, le cache read de Hy3 preview est facturé 44 % du coût d’entrée. À utilisation cache équivalente, le prix effectif de Hy3 preview ressort à 0,034 $/1M tokens, près du double de DeepSeek V4 Flash servi par DeepSeek.
Pour les 13 fournisseurs qui distribuent DeepSeek V4 Flash, les coûts de cache read oscillent entre 20 % et 50 % du coût d’entrée. L’écart traduit une asymétrie d’économies d’échelle entre l’éditeur historique et les hébergeurs tiers. À titre de référence, OpenAI, Anthropic et Google Gemini facturent leur cache read autour de 10 % du coût d’entrée sur leurs derniers modèles.
Le cas extrême reste DeepSeek V4 Pro servi par DeepSeek : 0,83 % de coût de cache read. Un facteur supérieur à 50 par rapport aux pratiques du segment premium américain.
Le cache read devient le vrai prix d’un LLM
Le ratio d’usage a basculé : 98 % des tokens consommés sur les API LLM sont désormais des tokens d’entrée, agressivement mis en cache, contre 2 % en sortie. Dans ce régime, le tarif de lecture cache pèse plus que le prix nominal d’entrée affiché en vitrine.
DeepSeek vient d’annoncer une plateforme d’agent de codage adossée à V4 Flash, qui revendique l’exploitation de son cache. Le coût d’entrée y est ramené à 50 %, mais le cache read grimpe à 20 %. L’économie réelle versus l’usage direct d’une clé API DeepSeek dans un agent tiers reste donc à démontrer, selon l’analyse de Max Woolf.
Ce que cela change pour les acheteurs d’API
Pour les directions techniques qui pilotent des charges agentiques à fort volume d’entrée, la lecture des fiches tarifaires bascule. Le prix d’entrée nominal ne suffit plus à comparer deux modèles. Le ratio cache read / input devient l’indicateur décisif, surtout sur des workflows de retrieval ou de code dont les prompts dépassent largement les sorties.
FAQ
Qu’est-ce que Hy3 LLM et qui le distribue ?
Hy3 preview est un grand modèle de langage actuellement en tête du classement OpenRouter Model Rankings. Il est accessible via l’API OpenRouter et hébergé notamment par SiliconFlow, qui publie sa page modèle. L’éditeur d’origine et l’architecture du modèle ne sont pas communiqués à ce jour selon les sources disponibles.
Pourquoi les coûts de lecture de cache pèsent autant aujourd’hui ?
Parce que 98 % des tokens facturés sur les API LLM sont des tokens d’entrée, mis en cache de façon agressive par les hébergeurs. Le cache read, facturé entre 0,83 % et 44 % du coût d’entrée selon les acteurs, détermine donc le coût effectif d’un appel API plus que le tarif nominal d’entrée.
À suivre
Reste à observer si Hy3 preview lèvera le voile sur son éditeur et si SiliconFlow alignera ses coûts de cache read sur les standards du marché. Le sujet rejoint celui de la guerre tarifaire engagée par DeepSeek sur les API.



