Mes lectures 0

Mes lectures

Tech

TPU 8t et 8i : Google double sa frappe pour l’ère agentique

Google dévoile deux TPU de huitième génération : 8t pour l'entraînement, 8i pour l'inférence. Performance multipliée par trois et 80 % de gain par dollar.

Processeur d'intelligence artificielle haut de gamme avec dissipateurs thermiques en cuivre
📋 En bref
Google scinde son TPU 8 en deux puces : 8t pour l'entraînement (121 exaflops par superpod) et 8i pour l'inférence (80 % de perf par dollar en plus).
  • Quoi : Google annonce les TPU 8t et 8i, deux puces distinctes pour entraînement et inférence
  • Pourquoi : Adapter le silicium aux exigences spécifiques des modèles MoE et des agents IA
  • Chiffre clé : 121 exaflops et 2 Po de mémoire partagée par superpod TPU 8t (9 600 puces)
  • À surveiller : Disponibilité en production et concurrence frontale avec Vera Rubin de Nvidia

Points clés

  • Google annonce TPU 8t et TPU 8i, deux architectures distinctes pour la huitième génération de Tensor Processing Unit.
  • TPU 8t cible l’entraînement avec un gain de performance multiplié par trois face à la génération précédente.
  • Un superpod TPU 8t agrège 9 600 puces et délivre 121 exaflops avec 2 pétaoctets de mémoire partagée.
  • TPU 8i vise l’inférence et le reinforcement learning, avec 80 % de performance par dollar en plus pour les agents.
  • Google maintient un partenariat actif avec Nvidia tout en consolidant son indépendance silicium.

Google a officialisé sa huitième génération de TPU lors de Google Cloud Next 2026, en scindant pour la première fois sa famille de puces en deux : TPU 8t pour l’entraînement et TPU 8i pour l’inférence. La firme revendique 121 exaflops et 2 pétaoctets de mémoire partagée par superpod 8t, ainsi qu’un gain de 80 % de performance par dollar côté 8i. Cette stratégie en deux temps assume une réalité industrielle : les agents et les modèles Mixture of Experts ne demandent plus le même silicium que l’entraînement frontier.

Une scission inédite entre entraînement et inférence

Jusqu’ici, Google maintenait une famille TPU unique, déclinée en variantes selon la précision et la connectivité. Avec les TPU 8t et 8i, l’éditeur prend acte d’une rupture observée dans toute l’industrie : les besoins matériels divergent radicalement entre la phase d’entraînement et celle d’inférence. Selon le blog officiel Google, le TPU 8t est conçu pour la haute densité de calcul matriciel et pour les communications massives entre puces, tandis que le 8i est optimisé pour la latence basse et le débit de tokens.

Concrètement, un superpod TPU 8t agrège 9 600 puces interconnectées via des liens à très haute bande passante et délivre 121 exaflops de calcul, accompagnés de 2 pétaoctets de mémoire partagée. Cette densité doit permettre de réduire les délais d’entraînement des grands modèles, qui pouvaient atteindre plusieurs mois sur des architectures plus anciennes. The Register souligne que l’approche dual-track aligne désormais Google avec la stratégie d’AMD et Nvidia, qui distinguent eux aussi les puces selon le profil de charge.

TPU 8i, la pièce maîtresse de l’ère agentique

Le TPU 8i porte une promesse plus stratégique encore. Google le positionne comme le système d’inférence de référence pour les workloads agentiques, où les modèles enchaînent des appels de tools, des appels API et des passes de raisonnement. Dans ce contexte, le coût marginal du token et la latence end-to-end deviennent les métriques critiques. Le 8i revendique 80 % de performance par dollar de mieux que la génération précédente, un saut majeur pour les éditeurs qui exploitent des architectures Mixture of Experts.

Cette annonce s’inscrit dans la continuité de la plateforme Gemini Enterprise Agent, dont Google fait désormais le hub central de ses offres entreprise. La logique est limpide : si le silicium maison délivre les bonnes performances en inférence, alors Google peut afficher des prix agressifs sans rogner ses marges. La firme tire parti de l’intégration verticale entre matériel, modèle et outils de déploiement pour différencier son offre face à Microsoft Azure et Amazon Web Services.

Une rivalité avec Nvidia plus subtile qu’il n’y paraît

Le récit médiatique réduit souvent la nouvelle à un duel Google-Nvidia. La réalité est plus nuancée. Google maintient un partenariat profond avec Nvidia, et continue de proposer les plateformes GPU les plus récentes à ses clients Cloud. Selon TechCrunch, les deux firmes travaillent ensemble pour optimiser le réseau interne du Cloud Google afin que les systèmes Nvidia y délivrent leurs performances maximales. Le scénario n’est donc pas un remplacement, mais une coexistence pilotée par les charges et les arbitrages économiques.

Pour les clients, le bénéfice est de pouvoir composer leur stack en fonction du cas d’usage. Un éditeur SaaS qui sert principalement de l’inférence pour des chatbots privilégiera vraisemblablement le TPU 8i, tandis qu’un laboratoire qui pré-entraîne un modèle à plusieurs centaines de milliards de paramètres pourra cibler indifféremment le TPU 8t ou la plateforme Vera Rubin de Nvidia, selon les contraintes contractuelles et les engagements long terme. Cette flexibilité est un argument fort dans la négociation des renouvellements cloud.

Quelles conséquences pour les directions IT et les éditeurs SaaS ?

L’annonce des TPU 8t et 8i a des conséquences concrètes sur la planification des budgets IA en 2026 et 2027. Les directions IT qui s’apprêtaient à signer des engagements GPU pluriannuels avec un seul fournisseur peuvent désormais réévaluer la répartition entre instances entraînement, instances inférence et capacité agentique. La granularité de l’offre permet d’optimiser plus finement le coût par requête, métrique de plus en plus suivie dans les comités de pilotage IA.

Pour les éditeurs SaaS, l’arrivée d’un silicium spécialisé inférence à 80 % de performance par dollar en plus ouvre la porte à des modèles économiques plus agressifs. Certains acteurs intègrent déjà ces gains dans leurs simulations financières, en pariant sur une baisse rapide des coûts d’inférence pour libérer de nouveaux cas d’usage. Le risque demeure d’une trop forte dépendance à un fournisseur cloud unique, mais la concurrence active entre Google, Microsoft et Amazon limite ce danger.

FAQ

Quelle est la différence concrète entre TPU 8t et TPU 8i ?

Le TPU 8t est conçu pour les charges d’entraînement de grands modèles, avec un débit massif de calcul matriciel et une connectivité interpuce extrême. Le TPU 8i cible l’inférence et le reinforcement learning, avec une latence très basse et un meilleur rendement par dollar. Les deux puces ne sont pas concurrentes, elles couvrent des phases distinctes du cycle de vie d’un modèle d’IA.

Quand les TPU 8t et 8i seront-ils disponibles pour les clients Cloud ?

Google indique que les deux puces seront déployées prochainement chez les clients Cloud, sans calendrier précis à ce stade. La pratique habituelle de Google consiste à ouvrir d’abord à quelques partenaires stratégiques sous accord de confidentialité, puis à élargir progressivement la disponibilité commerciale au fil des trimestres. Une montée en charge complète en 2027 est plausible.

Faut-il abandonner Nvidia pour passer aux TPU ?

Non. Google reste partenaire de Nvidia et continue d’offrir les plateformes Vera Rubin et Blackwell sur son cloud. La bonne décision dépend des cas d’usage : entraînement frontier, inférence agentique, fine-tuning ou hébergement de modèles open source. Une stratégie hybride qui mêle TPU et GPU reste pertinente pour la plupart des entreprises, le temps que les écosystèmes logiciels stabilisent leur compatibilité.

L’écosystème logiciel JAX et XLA reste un atout différenciant

L’argument silicium ne suffit pas pour gagner la guerre des puces IA. L’écosystème logiciel pèse autant que la performance brute, parfois davantage. Google bénéficie ici d’un avantage structurel grâce à JAX et XLA, son compilateur, qui exploitent finement les TPU. Ce stack a séduit une partie significative des laboratoires de recherche, notamment ceux qui ne veulent pas dépendre exclusivement de PyTorch et de l’écosystème Nvidia. Les TPU 8t et 8i devraient capitaliser sur cette base installée pour gagner du terrain.

Pour les éditeurs SaaS qui distribuent leurs produits depuis Google Cloud, l’enjeu est concret. Migrer une charge d’inférence d’un GPU vers un TPU 8i demande un travail d’optimisation spécifique, mais les gains de coût annoncés peuvent justifier l’effort. Google met d’ailleurs à disposition des outils de portage automatique entre PyTorch et JAX, qui réduisent considérablement la friction technique. Les retours d’expérience attendus dans les prochains trimestres permettront de juger la fiabilité de ce parcours de migration.

L’enjeu énergétique au cœur de la décision matérielle

Au-delà du prix par requête, l’efficacité énergétique devient une variable décisive. Les TPU 8t et 8i intègrent des optimisations matérielles destinées à abaisser la consommation par token généré, dans un contexte où les hyperscalers font face à des contraintes de raccordement réseau de plus en plus sévères. La performance par watt se transforme en argument commercial pour Google, qui peut ainsi répondre aux DSI soucieux de leur empreinte carbone.

L’autre facette concerne la fiabilité opérationnelle. Une puce optimisée pour l’inférence doit tenir des charges soutenues 24 heures sur 24, avec des SLA stricts sur la latence. Les retours des partenaires précoces préciseront si le TPU 8i atteint ces objectifs en conditions de production réelle, notamment sur les workloads agentiques qui combinent plusieurs appels en cascade. Cette dimension est cruciale pour les directions IT qui envisagent une bascule vers une architecture 100 % agentique.

Une stratégie commerciale taillée pour les engagements pluriannuels

Google ne se contente pas de proposer une nouvelle puce, le groupe revoit également sa politique commerciale. Les engagements pluriannuels sur capacité TPU bénéficient désormais de remises substantielles, qui rapprochent le coût total de possession des offres GPU concurrentes. Cette stratégie vise à fidéliser les clients qui s’engagent dans une trajectoire IA structurée plutôt qu’à attirer ceux qui veulent expérimenter à court terme.

Pour les directions financières, cette approche peut sembler contraignante mais elle offre une prévisibilité bienvenue. Connaître son coût d’inférence sur trois ans facilite les business plans des produits IA et la négociation avec les clients finaux. Les retours d’expérience des partenaires précoces de TPU 7 montrent que ce modèle fonctionne, à condition de bien dimensionner la capacité réservée pour éviter les sur-engagements coûteux en cas de retournement de la demande.

À suivre

Les premières études comparatives indépendantes sur les performances réelles des TPU 8t et 8i sont attendues dans les prochaines semaines, à mesure que des partenaires précoces publieront leurs benchmarks. Pour comprendre l’écosystème dans lequel s’inscrivent ces puces, lisez notre analyse de la plateforme Gemini Enterprise Agent et notre dossier sur le partenariat Cadence ChipStack entre Nvidia et Google.

Avatar photo
À propos de l'auteur

Mohamed Meguedmi

Je suis Mohamed Meguedmi, fondateur et directeur éditorial de LagazetteIA. Multi-entrepreneur passionné de tech depuis toujours, j'ai intégré l'IA dans chacune de mes entreprises dès ses débuts. Chaque semaine, je teste des dizaines d'outils IA, compare les modèles et décortique les dernières avancées pour vous donner un avis concret, sans bullshit. Mon objectif avec LagazetteIA : vous faire gagner du temps et vous aider à prendre les bonnes décisions dans cette révolution technologique. La rédaction s'appuie sur des outils d'analyse modernes (incluant l'IA générative) et chaque publication est vérifiée et validée par mes soins avant mise en ligne. Profil LinkedIn : https://www.linkedin.com/in/mohamed-meguedmi/