Points clés
• NVIDIA a annoncé l’architecture Feynman au GTC 2026, successeur de Vera Rubin, prévue pour 2028.
• Trois innovations majeures : empilement 3D de dies GPU, mémoire HBM personnalisée (HBM4E/HBM5) et gravure TSMC A16 en 1,6 nm.
• Le nouveau CPU Rosa (nommé d’après Rosalind Franklin) accompagne le GPU Feynman et le LPU LP40 développé avec Groq.
• La configuration NVL1152 offre huit fois la densité de calcul de la Vera Rubin NVL144.
• Jensen Huang a relevé ses prévisions de revenus IA à 1 000 milliards de dollars cumulés entre 2025 et 2027.

Feynman : trois ruptures technologiques en une seule puce

Lors de sa keynote au GTC 2026, le 17 mars à San José, le PDG de NVIDIA Jensen Huang a présenté Feynman comme la prochaine génération d’architecture GPU après Vera Rubin. Le nom rend hommage au physicien Richard Feynman, pionnier de l’électrodynamique quantique et figure emblématique de l’approche « par les premiers principes » en physique.

L’architecture introduit trois innovations simultanées, une première pour NVIDIA. La plus spectaculaire est l’empilement 3D de dies GPU : au lieu de placer les puces côte à côte sur un interposeur, Feynman empile verticalement les dies de calcul, multipliant la densité de transistors par unité de surface. Cette technique, déjà utilisée pour la mémoire HBM, n’avait jamais été appliquée aux dies GPU de NVIDIA.

La deuxième innovation concerne la mémoire. Feynman intégrera une mémoire HBM personnalisée — probablement un variant HBM4E ou HBM5 selon les analystes de Jon Peddie Research — conçue pour offrir une bande passante record entre le GPU et la mémoire, éliminant le principal goulot d’étranglement des charges de travail d’inférence IA.

La troisième innovation est la gravure. Feynman sera le premier GPU NVIDIA fabriqué sur le nœud TSMC A16, qui descend à 1,6 nanomètre — la première puce de classe nanométrique du fabricant de GPU. Cette finesse de gravure permet une réduction significative de la consommation énergétique par opération, un enjeu critique pour les data centers IA dont la facture électrique explose.

Rosa : le CPU qui orchestre l’usine à agents IA

Feynman ne vient pas seul. NVIDIA a également annoncé Rosa, un nouveau CPU nommé d’après Rosalind Franklin, la cristallographe britannique dont les travaux ont permis de révéler la structure de l’ADN. Rosa est conçu pour déplacer efficacement les données, les outils et les tokens à travers l’ensemble de l’infrastructure IA agentique.

La plateforme Feynman associe le CPU Rosa au LP40 LPU (Language Processing Unit), développé conjointement avec l’équipe de Groq. Elle étend l’architecture de rack Kyber à la configuration NVL1152, soit huit fois la densité de la NVL144 actuelle de Vera Rubin. D’après les données présentées par Jensen Huang, cette configuration permet de traiter simultanément des milliers d’agents IA autonomes dans un seul rack.

1 000 milliards de dollars de revenus IA d’ici 2027

Jensen Huang a profité de sa keynote pour doubler ses prévisions de revenus cumulés liés à l’infrastructure IA. NVIDIA table désormais sur au moins 1 000 milliards de dollars de revenus issus des systèmes Blackwell et Vera Rubin entre 2025 et 2027, soit deux fois plus que les estimations précédentes. Cette annonce a été accueillie par une hausse de 4,2 % du titre NVIDIA en séance après-marché le jour de la keynote.

Ces prévisions s’appuient sur un carnet de commandes qui inclut des engagements de Microsoft, Amazon Web Services, Google Cloud, Meta et plusieurs acteurs souverains (Arabie saoudite, Émirats arabes unis, Singapour). Le déploiement de Vera Rubin est prévu pour le second semestre 2026, tandis que Feynman devrait entrer en production en 2028.

Ce que Feynman change pour l’écosystème IA

La génération Feynman fait progresser simultanément les cinq piliers de l’usine à IA selon la terminologie de NVIDIA : le calcul, la mémoire, le stockage, le réseau et la sécurité. Pour les développeurs d’agents IA et les entreprises qui déploient des systèmes d’inférence à grande échelle, la promesse est celle d’un coût par token en baisse continue et d’une latence réduite.

Pour les concurrents — AMD, Intel, les startups comme Cerebras, Groq ou Tenstorrent — l’annonce de Feynman repousse encore la cible à atteindre. La feuille de route de NVIDIA, qui enchaîne Blackwell (2024), Vera Rubin (2026) et Feynman (2028) sur un rythme annuel, impose un tempo d’innovation que peu d’acteurs peuvent suivre.

Questions fréquentes

Quand les puces Feynman seront-elles disponibles ?

NVIDIA prévoit une entrée en production de l’architecture Feynman en 2028. Les systèmes basés sur Feynman seront d’abord disponibles pour les opérateurs de data centers et les fournisseurs cloud avant d’être déclinés en versions grand public.

Quelle est la différence entre Vera Rubin et Feynman ?

Vera Rubin, prévue pour 2026, utilise une architecture planaire classique avec HBM4. Feynman introduit trois ruptures majeures : l’empilement 3D des dies GPU, une mémoire HBM personnalisée de nouvelle génération et la gravure en 1,6 nm (TSMC A16). La configuration NVL1152 de Feynman offre huit fois la densité de la NVL144 de Vera Rubin.