Mes lectures 0

Mes lectures

IA Générale

I/O 2026 : Gemini bascule dans l’agentique, 900 millions d’utilisateurs en ligne de mire

Les chiffres dévoilés par Sundar Pichai lors de la conférence I/O 2026 dessinent une rupture d'échelle plus qu'une rupture technologique. En douze mois, l'

Vue large d'une salle de serveurs aux racks d'acier brossé, lumières émeraude et silhouette d'un technicien au loin.
📋 En bref
Les chiffres dévoilés par Sundar Pichai lors de la conférence I/O 2026 dessinent une rupture d'échelle plus qu'une rupture technologique. En douze mois, l'
  • Une keynote qui troque les démos pour les ordres de grandeur
  • La thèse : la course se déplace du modèle vers l'agent et l'infrastructure
  • D'un modèle expérimental à un socle d'usage : la séquence 2022-2026
  • Au cœur du système : un dual chip et 1 million de TPUs distribués

Les chiffres dévoilés par Sundar Pichai lors de la conférence I/O 2026 dessinent une rupture d’échelle plus qu’une rupture technologique. En douze mois, l’application Gemini est passée de 400 à 900 millions d’utilisateurs actifs mensuels, le volume de tokens traités a été multiplié par sept en deux ans, et le capex annuel de Google est désormais six fois supérieur à celui de 2022. Trois données, trois lignes de force pour comprendre ce que recouvre vraiment l’expression « agentic Gemini era ».

🤖 Transparence IA — Cet article a été rédigé avec l'assistance d'outils d'IA générative à partir de sources primaires identifiées, puis relu et validé par Mohamed Meguedmi, fondateur de LagazetteIA (Falcon Consulting, SIRET 89457896200025).

Points clés 1. L’application Gemini a doublé en un an pour dépasser 900 millions d’utilisateurs actifs mensuels, selon les chiffres communiqués par Google le 19 mai 2026. 2. Le capex annuel de Google atteint 180 à 190 milliards de dollars en 2026, contre 31 milliards en 2022, soit un facteur six en quatre ans. 3. Les API du groupe traitent désormais environ 19 milliards de tokens par minute, alors que le total mensuel sur l’ensemble des surfaces est passé de 9,7 trillions à plusieurs centaines de trillions en deux ans. 4. Pour la première fois, Google sépare entraînement et inférence avec deux architectures dédiées, TPU 8t et TPU 8i, le 8t affichant près de trois fois la puissance brute de la génération précédente. 5. Plus de 8,5 millions de développeurs construisent chaque mois sur les modèles de Google, un socle qui déplace la valeur du modèle vers la distribution et l’agentique.

Une keynote qui troque les démos pour les ordres de grandeur

À Mountain View, le 19 mai 2026, Sundar Pichai n’a pas ouvert sa keynote par une démonstration de produit. Il a déroulé une suite de chiffres. Plus de 8,5 millions de développeurs actifs chaque mois sur les modèles de Google, 900 millions d’utilisateurs mensuels pour l’application Gemini, 2,5 milliards d’utilisateurs mensuels pour AI Overviews dans la recherche, 50 milliards d’images générées à ce jour avec les modèles Nano Banana. La séquence d’ouverture, plus comptable qu’évangélique, a donné le ton d’une édition centrée sur l’infrastructure et la distribution.

Cette dramaturgie tranche avec les I/O des années précédentes. L’enjeu n’est plus de prouver qu’un modèle peut écrire un poème ou interpréter une image. Il s’agit de démontrer qu’une firme peut absorber des charges de calcul d’une magnitude inédite, à un coût soutenable, pour des audiences qui se chiffrent désormais en milliards.

La thèse : la course se déplace du modèle vers l’agent et l’infrastructure

L’angle est explicite dans le billet du 19 mai 2026. Google ne dispute plus principalement les benchmarks de capacité. Il dispute le terrain de l’usage. Les chiffres communiqués décrivent une chaîne de valeur où le différentiel ne se loge plus dans la qualité ponctuelle d’un modèle, mais dans la capacité à le déployer à coût marginal décroissant sur des milliards d’interactions quotidiennes. La verticalisation par produit — application Gemini, AI Overviews, surfaces tierces des développeurs — devient l’argument central. L’agentique en est le débouché logique, celui qui justifie l’investissement en compute.

D’un modèle expérimental à un socle d’usage : la séquence 2022-2026

Pour saisir l’ampleur du basculement, il faut revenir à la trajectoire des quatre dernières années. En 2022, Google consacrait 31 milliards de dollars par an à ses dépenses d’investissement. Le chiffre était déjà considéré comme massif à l’aune des standards de la tech. Quatre ans plus tard, l’enveloppe attendue est de 180 à 190 milliards de dollars sur l’année 2026, soit environ six fois supérieure. Cette progression n’est pas linéaire, elle est exponentielle, et elle suit la courbe d’usage des modèles.

Deux ans avant I/O 2026, les surfaces de Google traitaient 9,7 trillions de tokens par mois. À I/O 2025, ce volume était passé à environ 480 trillions de tokens mensuels, soit une multiplication par cinquante en douze mois. Le rythme d’aujourd’hui se mesure désormais en débit instantané : 19 milliards de tokens par minute via les API. La nature de l’infrastructure a changé en conséquence. Le calcul n’est plus une ressource d’arrière-plan pour entraîner un modèle de temps en temps. C’est un flux continu qui irrigue des produits utilisés en parallèle par des centaines de millions de personnes.

Du côté des audiences, la séquence est tout aussi parlante. À I/O 2025, l’application Gemini comptait 400 millions d’utilisateurs actifs mensuels. À I/O 2026, ils sont plus de 900 millions, soit plus du double en un an. AI Overviews, la couche de synthèse intégrée à la recherche, dépasse les 2,5 milliards d’utilisateurs actifs mensuels. Et l’écosystème compte cinq produits passés au-dessus de 3 milliards d’utilisateurs. Cette distribution n’est pas anecdotique : elle conditionne la rentabilisation des modèles, donc la soutenabilité du capex.

Au cœur du système : un dual chip et 1 million de TPUs distribués

Le tournant technique le plus net annoncé à I/O 2026 réside dans la séparation explicite des architectures d’entraînement et d’inférence. Pour la première fois, Google adopte une approche bi-puce avec deux composants distincts : le TPU 8t, dédié au pré-entraînement à grande échelle, et le TPU 8i, dédié à l’inférence. Le TPU 8t affiche, selon Google, près de trois fois la puissance brute de calcul de la génération précédente.

La justification de cette spécialisation est documentée par les ordres de grandeur. Entraîner un modèle frontière mobilise des charges concentrées, longues, prévisibles et tolérantes à la latence. Servir l’inférence à 19 milliards de tokens par minute mobilise au contraire des charges fragmentées, courtes, imprévisibles et très sensibles à la latence. Le compromis architectural unique, longtemps porté par les générations précédentes de TPU, devenait sous-optimal des deux côtés. La bifurcation matérielle reflète une réalité économique : l’inférence est devenue le poste dominant.

Tableau récapitulatif — les ordres de grandeur Google 2022-2026

Indicateur2022I/O 2024I/O 2025I/O 2026
Capex annuel31 Md$non communiquénon communiqué180-190 Md$
Tokens mensuels traitésnon communiqué9,7 trillions~480 trillionsnon communiqué (débit : 19 Md/min via API)
Utilisateurs Gemini app (MAU)non communiqué400 millions900 millions
Utilisateurs AI Overviews (MAU)non communiquénon communiqué2,5 milliards
Architecture TPUTPU génériqueTPU génériqueTPU génériqueTPU 8t + TPU 8i

Au-delà du silicium, l’autre annonce structurante concerne la distribution géographique du calcul. Google indique pouvoir désormais répartir un même entraînement sur plus d’un million de TPUs à l’échelle globale, sur plusieurs sites simultanément. Concrètement, cela signifie que la contrainte d’un site unique — disponibilité électrique, refroidissement, foncier — ne plafonne plus l’échelle d’un run d’entraînement. Le calcul devient un actif réseau plutôt qu’un actif local.

Cette capacité de distribution multi-sites est un atout dont les implications dépassent la performance pure. Elle permet de mobiliser des capacités résiduelles dans des régions où la demande locale en compute est plus faible, et de mieux amortir l’investissement en data centers. Elle complique aussi le travail des concurrents qui doivent répliquer non seulement une puce, mais une orchestration logicielle de cette échelle.

Côté efficacité, Google revendique des gains spécifiques sur les modèles servis. La firme avance que si les principaux acteurs du marché, dont elle estime qu’ils traitent environ 1 trillion de tokens par jour, basculaient 80 % de leurs charges depuis d’autres modèles frontière vers Gemini 2.5 Flash, l’économie atteindrait plus d’un milliard de dollars par an. Le chiffre, dont la méthodologie n’est pas détaillée publiquement, dessine néanmoins l’argument commercial central : le coût par token devient un levier de négociation aussi puissant que la performance par token. Google ajoute qu’une version encore plus optimisée de Flash est désormais disponible, qu’elle décrit comme non plus quatre, mais douze fois plus rapide que les modèles frontière concurrents.

Impact terrain : ce que ces ordres de grandeur changent pour les développeurs et les directions techniques

Pour les 8,5 millions de développeurs qui construisent chaque mois sur les modèles de Google, l’annonce du 19 mai 2026 a moins changé l’interface que la structure de coût. Le passage à un débit d’environ 19 milliards de tokens par minute via les API, conjugué à la séparation des architectures d’entraînement et d’inférence, déplace deux variables que les équipes d’ingénierie surveillent : la latence et le prix au million de tokens. Quand un modèle s’exécute sur un silicium dédié à l’inférence, les marges d’optimisation se nichent ailleurs que dans le routage logiciel.

Concrètement, pour une direction technique française qui industrialise des cas d’usage à grande échelle — résumé de contrats, support client, analyse documentaire —, l’argument du milliard de dollars d’économies annoncé par Google sur un scénario de bascule à 80 % vers Gemini 2.5 Flash sert d’ancrage de négociation. Il n’est pas directement transposable à un client moyen, dont les volumes sont sans commune mesure avec ceux qui traitent un trillion de tokens par jour. Mais il fixe un nouveau plancher psychologique pour les benchmarks coût/performance. Le facteur douze revendiqué sur la version optimisée de Flash s’inscrit dans la même logique : il s’adresse aux DSI dont l’usage est dominé par l’inférence à fort volume, pas aux laboratoires de R&D qui optimisent au prompt près.

Pour les éditeurs de logiciels qui distribuent leurs produits via Gemini ou via la recherche, l’audience de 900 millions d’utilisateurs mensuels sur l’application et de 2,5 milliards sur AI Overviews change la nature du canal. Une fonctionnalité intégrée à l’une de ces surfaces accède immédiatement à un bassin qu’aucun autre éditeur indépendant ne peut répliquer. Le revers est connu : la dépendance de distribution est totale, et la marge de manœuvre tarifaire des intégrateurs s’érode mécaniquement à mesure que la couche modèle se commoditise.

Côté création de contenus, les 50 milliards d’images générées à ce jour avec les modèles Nano Banana attestent que la génération multimédia est entrée dans une phase de banalisation industrielle. Pour les équipes marketing, design ou éditoriales, l’enjeu n’est plus la rareté du générateur, mais la qualité de la chaîne — prompt, contrôle de marque, droits, traçabilité.

Perspectives contradictoires : trois critiques sérieuses adressées au modèle Google

Le récit déroulé à I/O 2026 n’est pas exempt de contestations. Trois ordres de critiques méritent d’être examinés.

La première porte sur la lisibilité économique du capex. Passer de 31 à 180-190 milliards de dollars annuels en quatre ans représente une intensification rare dans l’histoire récente du capitalisme industriel. Les analystes interrogent la trajectoire de rentabilisation. Les usages décrits — Gemini app, AI Overviews, API — génèrent-ils des revenus à la hauteur ? Google ne publie pas, dans le billet du 19 mai 2026, de ratio coût d’inférence par token rapporté au revenu par utilisateur. L’argument repose sur la croissance des audiences, pas sur la démonstration que chaque utilisateur additionnel est marginalement rentable. La critique n’invalide pas la stratégie ; elle demande à ce qu’on en explicite davantage le calcul.

La deuxième critique concerne la métrique de l’efficacité. Le chiffre du milliard de dollars économisé par basculement à 80 % vers Gemini 2.5 Flash repose sur une hypothèse — un trillion de tokens par jour pour les acteurs cités — dont la méthodologie n’est pas publiée. Pour un acheteur grand compte, ce type de chiffre fonctionne comme un signal directionnel, pas comme un engagement contractuel. La revendication d’un facteur douze sur la version optimisée de Flash relève de la même catégorie : utile pour positionner, insuffisante pour budgétiser sans benchmark interne.

La troisième critique est plus structurelle. La concentration de la chaîne — silicium propriétaire (TPU 8t et 8i), distribution multi-sites coordonnée, distribution produit captive (Search, application Gemini) — pose une question d’écosystème. Sur une infrastructure intégrée verticalement à ce point, la marge de différenciation des concurrents se rétrécit aux endroits où Google laisse une ouverture : open weights, contrats cloud, API tierces. Les autorités de la concurrence, aux États-Unis comme en Europe, observent depuis plusieurs trimestres ces équilibres. La conférence n’aborde pas ce point et concentre la communication sur les performances. C’est de bonne guerre, mais le silence sur ce volet est une variable à surveiller pour les directions juridiques.

Prospective : trois questions ouvertes pour les douze prochains mois

Plusieurs zones d’incertitude demeurent à l’issue de cette I/O 2026.

D’abord, la trajectoire du capex. Le rythme observé — facteur six en quatre ans — est-il soutenable ? La réponse dépendra de la capacité de Google à transformer 900 millions d’utilisateurs mensuels en flux de monétisation durable, qu’il s’agisse d’abonnements premium à Gemini, de revenus publicitaires intégrés à AI Overviews ou de marges sur l’API. Le facteur six ne se reproduira pas à l’identique sur la période 2026-2030 — il n’a pas vocation à le faire — mais le plancher absolu de l’investissement annuel restera élevé.

Ensuite, la viabilité de l’agentique à l’échelle. La notion d’« ère agentique » introduite par Google suppose des agents qui orchestrent des actions complexes, multi-étapes, à travers plusieurs services. À 19 milliards de tokens par minute aujourd’hui, les marges sont confortables. À volume agentique généralisé, où chaque utilisateur génère des chaînes de raisonnement de plusieurs centaines de tokens par requête, l’arithmétique devient plus tendue. Le pari du TPU 8i est précisément de tenir cette charge à coût décroissant.

Enfin, la question de l’écosystème ouvert. Les 8,5 millions de développeurs constituent la principale assurance de Google contre une captation purement Big Tech de la valeur. Leur fidélité dépendra du compromis entre conditions tarifaires, qualité des modèles et autonomie offerte. À surveiller : les annonces des prochains trimestres sur les programmes développeurs, les modalités d’accès aux nouvelles générations de TPU via Google Cloud, et les options open weights — un terrain où Google a longtemps été plus discret que certains concurrents européens et américains.

FAQ

Que signifie concrètement l’expression « agentic Gemini era » employée par Google ?

L’expression désigne une orientation produit où les modèles Gemini exécutent des tâches multi-étapes coordonnées plutôt que de répondre à des requêtes ponctuelles. Selon le billet du 19 mai 2026, cette bascule repose sur l’infrastructure révélée à I/O 2026 — TPU 8t et 8i, distribution multi-sites — qui rend économiquement supportable un trafic de raisonnement nettement plus dense.

Pourquoi Google sépare-t-il maintenant entraînement et inférence sur deux puces ?

Parce que les charges sont fondamentalement différentes. L’entraînement est concentré et tolérant à la latence ; l’inférence est fragmentée et sensible à la latence. Avec 19 milliards de tokens par minute servis via les API, l’inférence représente un poste dominant. Le TPU 8t optimise le pré-entraînement à trois fois la puissance brute de la génération précédente, le TPU 8i optimise le service.

Le chiffre du milliard d’économies par bascule vers Flash est-il transposable à mon entreprise ?

Pas directement. Google le calcule sur un scénario où des acteurs traitant un trillion de tokens par jour basculeraient 80 % de leurs charges depuis d’autres modèles frontière. Pour une entreprise française moyenne, ce chiffre sert d’ancrage de négociation, pas de garantie. Il faut le ramener à un benchmark interne sur les cas d’usage prioritaires avant d’en tirer une décision d’achat.

Comment situer Google par rapport à ses concurrents après cette I/O ?

L’annonce ne concerne pas la performance de pointe sur un benchmark donné mais l’échelle de distribution et l’efficacité du compute. Sur ces deux dimensions, les chiffres communiqués — 900 millions d’utilisateurs mensuels Gemini app, 2,5 milliards AI Overviews, 8,5 millions de développeurs, 19 milliards de tokens par minute — positionnent Google sur un registre que peu d’acteurs peuvent revendiquer simultanément. La concurrence se joue désormais autant sur la chaîne complète que sur le modèle pris isolément.

Encadré sources

  • Sundar Pichai, I/O 2026: Welcome to the agentic Gemini era, blog officiel Google, publié le 19 mai 2026 — blog.google/innovation-and-ai/sundar-pichai-io-2026.
  • Communications officielles Google relatives aux générations TPU 8t et 8i, citées dans le billet du 19 mai 2026.
  • Données d’audience Gemini app, AI Overviews et écosystème Google communiquées lors de la keynote I/O 2026.
  • Données capex Google 2022 et 2026 communiquées lors de la keynote I/O 2026.
  • Données tokens traités (9,7 trillions mensuels à I/O 2024, 480 trillions à I/O 2025, 19 milliards par minute via API à I/O 2026) communiquées lors de la keynote I/O 2026.

Pour aller plus loin sur l’écosystème : Google injecte 40 Md$ dans Anthropic : 10 cash, 30 conditionnels, xAI courtise Mistral et Cursor pour défier Anthropic, Course aux LLM : la bataille de l’inférence à bas coût, TPU contre GPU : comprendre la divergence d’architecture, Agents IA : comment évaluer le retour sur investissement.

Avatar photo
À propos de l'auteur

Mohamed Meguedmi

Je suis Mohamed Meguedmi, fondateur et directeur éditorial de LagazetteIA. Multi-entrepreneur passionné de tech depuis toujours, j'ai intégré l'IA dans chacune de mes entreprises dès ses débuts. Chaque semaine, je teste des dizaines d'outils IA, compare les modèles et décortique les dernières avancées pour vous donner un avis concret, sans bullshit. Mon objectif avec LagazetteIA : vous faire gagner du temps et vous aider à prendre les bonnes décisions dans cette révolution technologique. La rédaction s'appuie sur des outils d'analyse modernes (incluant l'IA générative) et chaque publication est vérifiée et validée par mes soins avant mise en ligne. Profil LinkedIn : https://www.linkedin.com/in/mohamed-meguedmi/