- ▸ Mountain View, 19 mai 2026 : le pivot agentique
- ▸ Thèse : l'agentique reconfigure la chaîne de valeur
- ▸ D'où l'on vient : dix ans de transition AI-first
- ▸ Analyse technique : TPU 8t, TPU 8i et la mécanique des coûts d'inference
Sundar Pichai a ouvert l’édition 2026 de Google I/O sur une bascule discrète mais structurante : l’application Gemini est passée de 400 à 900 millions d’utilisateurs mensuels en douze mois, et les API du groupe traitent désormais 19 milliards de tokens par minute. Derrière ces volumes, une thèse industrielle se dessine : la valeur ne se mesure plus en performance brute, mais en capacité à orchestrer des tâches. Ce dossier en cartographie les trois lignes de tension.
Points clés 1. Adoption : l’application Gemini atteint 900 millions d’utilisateurs mensuels, contre 400 millions un an plus tôt, soit un doublement en douze mois. 2. Infrastructure : Google passe de 31 Md$ de capex annuel en 2022 à une fourchette de 180 à 190 Md$ en 2026, soit environ six fois plus en quatre ans. 3. Silicium : la firme bascule sur une architecture à double puce — TPU 8t pour l’entraînement, TPU 8i pour l’inference — avec un facteur trois sur la puissance brute par rapport à la génération précédente. 4. Volumes : les surfaces Google traitent un débit de 19 milliards de tokens par minute, contre 9,7 trillions par mois deux ans plus tôt. 5. Économie d’échelle : un acteur traitant un trillion de tokens par jour économiserait plus d’un milliard de dollars par an en basculant 80 % de ses charges sur Gemini Flash.
Mountain View, 19 mai 2026 : le pivot agentique
L’amphithéâtre du Shoreline retient un chiffre que Pichai laisse tomber sans emphase : 900 millions. C’est le nombre d’utilisateurs mensuels actifs de l’application Gemini en mai 2026. Douze mois plus tôt, au même endroit, il annonçait 400 millions. La courbe ne décrit pas une croissance organique : elle traduit un basculement d’usage. L’application devient le point d’entrée d’une plateforme qui se redéfinit comme agentique — c’est-à-dire capable, selon Google, d’exécuter des séquences de tâches au nom de l’utilisateur, et non plus de produire des réponses isolées.
Le terme « agentique » mérite une définition. Il désigne ici un système qui prend une instruction de haut niveau, la décompose en étapes, mobilise plusieurs outils — recherche, calcul, exécution de code, appel d’API — et restitue un résultat actionnable. La différence avec un chatbot classique tient à l’autonomie d’exécution. Google place cette capacité au cœur de l’édition 2026 de sa conférence développeurs, et l’adosse à un effort d’infrastructure sans précédent dans son histoire.
Thèse : l’agentique reconfigure la chaîne de valeur
L’argument du groupe est double. D’un côté, l’usage de l’IA générative s’élargit à un rythme inédit dans l’histoire récente d’Internet — l’écosystème Google compte cinq produits dépassant les trois milliards d’utilisateurs, et AI Overviews touche désormais 2,5 milliards d’utilisateurs mensuels. De l’autre, la rentabilité de ces usages dépend d’une intégration verticale rare : modèles, silicium, datacenters, distribution. La thèse implicite consiste à dire que la prochaine étape ne se gagnera ni sur le score à un benchmark, ni sur la taille du modèle, mais sur la capacité à servir des agents à un coût marginal compatible avec une économie de la requête.
C’est sur ce terrain que se déplace la concurrence. Et c’est ce déplacement que les annonces de Mountain View viennent baliser.
D’où l’on vient : dix ans de transition AI-first
Google a annoncé son pivot AI-first lors de l’I/O 2016. La trajectoire suivie depuis dessine trois phases distinctes. La première, de 2016 à 2020, est celle de l’intégration discrète : RankBrain dans la recherche, Smart Compose dans Gmail, Google Lens. L’IA est invisible, encapsulée dans des fonctionnalités existantes. La seconde phase, ouverte par la publication des transformeurs en 2017 et accélérée par la sortie de ChatGPT fin 2022, repositionne le groupe sur un terrain où il n’a plus le monopole de l’innovation perçue. Bard, puis Gemini, sont des réponses construites dans l’urgence relative d’un marché redessiné par OpenAI.
La troisième phase, celle que I/O 2026 inaugure, est moins défensive. Les volumes traités le suggèrent : il y a deux ans, les surfaces Google traitaient 9,7 trillions de tokens par mois — un chiffre déjà considérable. À l’I/O 2025, ce volume avait grimpé à environ 480 trillions par mois. En 2026, le débit instantané atteint 19 milliards de tokens par minute, ce qui correspond à un ordre de grandeur supérieur encore. La progression n’est pas linéaire ; elle suit une courbe convexe que peu d’infrastructures publiques ont connue sur des cycles aussi courts.
Cette courbe pèse sur la trésorerie. Le groupe est passé d’un capex annuel de 31 milliards de dollars en 2022 à une fourchette projetée de 180 à 190 milliards de dollars pour 2026. Un facteur six en quatre ans. Cette intensité capitalistique est sans équivalent dans le secteur logiciel — elle rapproche la structure de coûts de Google de celle des opérateurs télécoms ou des grands sidérurgistes, et redéfinit la nature de l’avantage compétitif. Le différentiel ne se joue plus uniquement sur la qualité du code, mais sur la capacité à amortir des actifs physiques massifs sur un débit de requêtes en croissance permanente.
C’est dans ce contexte que la firme dévoile une bascule architecturale sur son silicium maison.
Analyse technique : TPU 8t, TPU 8i et la mécanique des coûts d’inference
Pour la première fois depuis le lancement des Tensor Processing Units en 2016, Google adopte une approche à double puce. Le TPU 8t est dédié à l’entraînement à grande échelle ; le TPU 8i, à l’inference. Cette spécialisation matérielle est une rupture par rapport aux générations précédentes, qui visaient une polyvalence calculée. Selon les éléments fournis par le groupe, le TPU 8t offre près de trois fois la puissance de calcul brute de la génération précédente. La performance du TPU 8i n’est pas chiffrée publiquement à ce stade, mais sa raison d’être est claire : abaisser le coût marginal de la requête servie à l’utilisateur.
L’enjeu économique est mesurable. Pichai a esquissé une équation explicite : un acteur traitant un trillion de tokens par jour économiserait plus d’un milliard de dollars annuels en transférant 80 % de ses charges de modèles concurrents vers Gemini 3 Flash. La firme annonce par ailleurs une version encore plus optimisée de Flash — non pas quatre fois, mais douze fois plus rapide que les autres modèles d’avant-garde, selon les benchmarks internes communiqués. Cette accélération, si elle se confirme dans des conditions tierces, déplace le centre de gravité de la concurrence vers la dimension prix-performance par token servi.
Tableau comparatif : la trajectoire d’usage et d’infrastructure de Google
| Indicateur | 2022 | 2024 (I/O) | 2025 (I/O) | 2026 (I/O) |
|---|---|---|---|---|
| Capex annuel | 31 Md$ | non communiqué | non communiqué | 180-190 Md$ |
| Tokens traités (surfaces) | non communiqué | 9,7 T/mois | ~480 T/mois | 19 Md/minute |
| Utilisateurs Gemini app (MAU) | non communiqué | non communiqué | 400 M | 900 M |
| Architecture TPU | générations antérieures | TPU précédente | TPU précédente | TPU 8t + TPU 8i |
| Développeurs mensuels actifs | non communiqué | non communiqué | non communiqué | 8,5 M |
Ce tableau condense la trajectoire revendiquée. Trois lignes méritent un commentaire. Le facteur six sur le capex en quatre ans correspond à une dérivée seconde positive : Google n’investit pas seulement plus, il accélère son rythme d’investissement, ce qui suppose une visibilité forte sur la demande future. Le passage de 9,7 trillions par mois à 19 milliards par minute représente, en équivalent mensuel, environ 821 trillions de tokens — un facteur 85 en deux ans, qui justifie économiquement le doublement du capex. Enfin, le doublement des utilisateurs Gemini en douze mois sans baisse de qualité perçue suggère que l’infrastructure a tenu la charge, ce qui n’est pas trivial à cette échelle.
Le rôle structurant du TPU 8i
La spécialisation inference est la conséquence logique d’une économie où le coût par token servi devient le facteur limitant. En 2022, un acteur pouvait se permettre de servir un modèle sur des GPU généralistes : les volumes étaient compatibles avec cette inefficacité. À 19 milliards de tokens par minute, chaque watt et chaque cycle compte. Le TPU 8i est conçu pour ce régime : circuits dédiés aux opérations matricielles de basse précision, optimisation mémoire pour des contextes longs, parallélisme adapté aux requêtes batchées en temps réel.
Cette spécialisation a une conséquence indirecte sur l’écosystème logiciel. Plus le silicium est verrouillé sur un usage précis, plus les modèles qui le ciblent doivent être optimisés en conséquence. Google capte ainsi un avantage que ses concurrents — dépendants de Nvidia ou de leurs propres puces maison moins matures — n’ont pas encore consolidé. C’est une forme de barrière à l’entrée qui ne se voit pas dans les classements de modèles, mais qui s’imprime dans les marges unitaires.
Distribution à l’échelle : entraîner sur un million de TPU
Le second point d’inflexion technique concerne la topologie d’entraînement. Google indique pouvoir désormais distribuer l’entraînement à travers plus d’un million de TPU répartis sur plusieurs sites. Ce chiffre, brut, masque une difficulté ingénierielle considérable : maintenir la cohérence des gradients sur des distances physiques importantes suppose des liaisons réseau de très haute capacité, des algorithmes de synchronisation adaptés et une tolérance aux pannes à grande échelle. La firme reste discrète sur les détails, mais le simple fait d’annoncer ce volume — sans préciser s’il s’agit d’un pic ou d’une capacité soutenue — donne la mesure du fossé qui se creuse avec les acteurs disposant de quelques dizaines de milliers d’accélérateurs.
Cette capacité distribuée transforme aussi la résilience opérationnelle. Un site indisponible ne fige plus l’entraînement ; les charges peuvent être déplacées. C’est un changement de nature plus que de degré, comparable au passage du calcul mainframe au cloud distribué dans les années 2000.
Impact terrain : huit millions et demi de développeurs en orbite
L’effet de levier de cette infrastructure se mesure à l’aune de son adoption par les développeurs. Google revendique 8,5 millions de développeurs construisant chaque mois de nouvelles applications et expériences sur ses modèles. Le chiffre est à mettre en regard de la communauté GitHub mondiale — environ 100 millions de comptes actifs, dont une fraction seulement développe régulièrement. Si la mesure est exacte, cela signifie qu’une partie significative des développeurs actifs touche désormais aux API Gemini, au moins ponctuellement.
Cette présence se traduit en volumes consommés. Les API de modèles traitent 19 milliards de tokens par minute, ce qui ramené à l’année donne un ordre de grandeur de l’inférence applicative supérieur à celui de la recherche traditionnelle. Le centre de gravité de la consommation Google bascule. La recherche reste dominante en revenus publicitaires, mais l’inférence applicative — facturée à l’usage — devient le terrain où se joue la croissance unitaire des marges.
Cinq produits, trois milliards d’utilisateurs chacun
Côté grand public, Google maintient cinq produits dépassant les trois milliards d’utilisateurs. AI Overviews — l’intégration de résumés générés au-dessus des résultats de recherche — atteint 2,5 milliards d’utilisateurs mensuels. Un autre produit, non nommé dans les éléments communiqués mais probablement lié à une intégration récente, dépasse le milliard d’utilisateurs mensuels en moins d’un an. À ces volumes, l’effet de réseau se transforme en effet d’inertie : déloger un utilisateur installé devient économiquement coûteux pour un concurrent, ce qui replace la concurrence sur le terrain de l’innovation pure plutôt que sur celui de l’acquisition.
50 milliards d’images : la combustion silencieuse de Nano Banana
Le modèle Nano Banana, dédié à la génération d’images, a produit à ce jour plus de 50 milliards d’images. Le chiffre est vertigineux mais mérite contextualisation. Ramené à la population mondiale, cela représente environ six images par habitant. Ramené à un coût d’inférence moyen, même très bas, cela représente une charge industrielle significative sur les datacenters. Et ramené à la production photographique mondiale historique, cela situe la génération synthétique au même ordre de grandeur que les photographies captées par smartphones depuis l’avènement de l’iPhone — une rupture culturelle qui mérite son propre dossier.
La conséquence pour les industries créatives est connue mais s’aggrave avec ces volumes. Le coût marginal d’une image personnalisée s’effondre. Les modèles économiques des banques d’images, des illustrateurs sur commande, des studios graphiques se reconfigurent. Pour aller plus loin sur cette question, lire notre dossier IA générative : la pression sur les métiers visuels.
Perspectives contradictoires : ce que les chiffres ne disent pas
Trois critiques sérieuses peuvent être adressées à la lecture triomphale des annonces de Mountain View.
Premier contre-argument : la nature des utilisateurs comptabilisés. Le passage de 400 à 900 millions d’utilisateurs mensuels actifs de l’application Gemini est spectaculaire, mais la définition d’« utilisateur actif » varie considérablement selon les acteurs. Google ne précise pas la fréquence minimale d’usage, la durée moyenne par session, ni la part d’utilisateurs touchés via des intégrations natives — Android, Chrome, Workspace — par opposition à un usage volontaire. Une partie significative de ces 900 millions pourrait correspondre à une exposition incidente plutôt qu’à un engagement choisi. Cette nuance importe pour évaluer la valeur économique réelle de la base.
Deuxième contre-argument : la soutenabilité du capex. Investir 180 à 190 milliards de dollars annuels en infrastructure suppose un rendement futur qui justifie l’amortissement. Sur des durées d’amortissement de cinq à sept ans pour les datacenters, cela suppose un revenu incrémental significatif. Le risque, identifié par plusieurs analystes financiers, est celui d’un sur-investissement par mimétisme concurrentiel — chaque acteur surdimensionnant ses capacités par peur de céder du terrain, jusqu’à ce qu’une partie des actifs se révèle excédentaire. Le précédent des télécoms après la bulle Internet, où des kilomètres de fibre optique sont restés noirs pendant des années, n’est pas anodin. La spécialisation TPU 8t / TPU 8i atténue ce risque — ces puces ne s’amortissent que sur des charges Google — mais ne l’élimine pas.
Troisième contre-argument : l’agentique reste à prouver dans la durée. Présenter Gemini comme entrant dans une « ère agentique » est une affirmation de positionnement plus que de performance vérifiée. Les agents IA, en 2026, restent fragiles dès que les tâches s’éloignent du périmètre testé. Les benchmarks publics — Web Arena, AgentBench, SWE-bench — montrent des taux de succès qui plafonnent souvent sous 50 % pour les tâches complexes. Affirmer qu’une plateforme bascule dans l’agentique relève d’une promesse, pas d’un état mesuré. Le décalage entre promesse et réalité a déjà coûté cher à plusieurs acteurs ; il pourrait coûter à Google si les développeurs constatent un écart significatif entre démonstration et production.
Ces trois critiques ne disqualifient pas les annonces. Elles invitent à les lire avec la mesure que mérite tout discours d’entreprise lors d’un événement de communication. Le décompte des utilisateurs, l’ampleur du capex et la promesse agentique forment un tryptique cohérent — mais chaque branche repose sur des hypothèses qui n’ont pas encore été stress-testées par un cycle économique défavorable.
Prospective : trois questions ouvertes pour les douze prochains mois
La trajectoire que I/O 2026 dessine ouvre plusieurs questions structurantes pour la suite. La première porte sur l’élasticité de la demande à mesure que les coûts d’inférence baissent. Si Flash devient douze fois plus rapide que les modèles concurrents — et donc, à conditions matérielles équivalentes, plusieurs fois moins coûteux par token — quels usages, aujourd’hui économiquement non viables, vont s’ouvrir ? L’expérience du cloud computing entre 2008 et 2015 suggère que les baisses de coûts unitaires créent des usages plus qu’elles ne capturent une demande existante.
La seconde question concerne la fragmentation de l’infrastructure mondiale. Distribuer l’entraînement sur plus d’un million de TPU répartis sur plusieurs sites suppose une géographie de l’IA que les régulateurs vont scruter de près. La capacité à entraîner un modèle simultanément dans plusieurs juridictions soulève des questions de souveraineté, de fiscalité et de conformité au RGPD européen et à ses équivalents.
La troisième porte sur la concurrence. Si Google consolide une avance dans l’inférence à grande échelle grâce au TPU 8i, comment Microsoft, Amazon, Meta et les laboratoires spécialisés répondent-ils ? La course aux puces dédiées à l’inférence ne fait que commencer, et plusieurs acteurs — Groq, Cerebras, SambaNova côté startups, Trainium chez Amazon — préparent leur propre architecture. Pour les directions techniques européennes, l’arbitrage entre coût, souveraineté et performance va se complexifier, et l’écart entre les options va probablement s’élargir avant de se restreindre.
FAQ
Quelle différence concrète entre Gemini agentique et un chatbot classique ?
Un chatbot répond à une requête ; un agent exécute une chaîne d’actions. Concrètement, là où Gemini répondait à une question, sa version agentique peut décomposer une instruction — réserver un vol, comparer trois options, finaliser le paiement — en sous-tâches qu’elle réalise via des outils intégrés. La promesse est encore en partie aspirationnelle : les taux de succès sur les benchmarks d’agents publics plafonnent souvent sous 50 % pour les tâches complexes.
Pourquoi Google sépare désormais entraînement et inférence sur des puces différentes ?
Parce que les deux régimes ont des contraintes opposées. L’entraînement exige un parallélisme massif, des opérations en haute précision et des communications inter-puces très denses. L’inférence privilégie la latence faible, l’efficacité énergétique par requête et la basse précision suffisante. Spécialiser le silicium — TPU 8t pour l’entraînement, TPU 8i pour l’inférence — permet d’optimiser chaque cas d’usage, là où une puce polyvalente paie un compromis sur les deux fronts.
Les 180 à 190 milliards de capex sont-ils soutenables financièrement ?
Le chiffre représente un facteur six par rapport aux 31 milliards de 2022. Sur le papier, il s’amortit sur la croissance des volumes d’inférence facturés — passés de 9,7 trillions de tokens mensuels à 19 milliards par minute. Le risque réside dans un retournement de la demande : si la croissance des usages ralentit, l’amortissement devient plus lourd. La question vaut pour l’ensemble du secteur, pas seulement pour Google.
Que change l’augmentation à 8,5 millions de développeurs actifs mensuels ?
Elle indique que l’écosystème applicatif autour de Gemini atteint une masse critique. À ce niveau, les effets de réseau s’installent : tutoriels, bibliothèques tierces, intégrations natives dans les IDE. Pour comparer, l’évolution des plateformes développeurs concurrentes suggère que dépasser la barre des dix millions de développeurs actifs constitue un point de bascule où les concurrents peinent à proposer une expérience équivalente.
Encadré sources
- Sundar Pichai, « I/O 2026: Welcome to the agentic Gemini era », blog Google, 19 mai 2026 — https://blog.google/innovation-and-ai/sundar-pichai-io-2026/
- Communications officielles Google I/O 2026, captées le 19 mai 2026.
- Données capex Google 2022 : déclarations financières trimestrielles citées dans l’allocution Pichai I/O 2026.
- Pour aller plus loin sur les enjeux d’infrastructure IA, lire notre dossier Capex IA : la guerre des datacenters et notre analyse TPU, GPU, ASIC : la nouvelle carte du silicium IA.



