Anthropic puces IA : un pari à 500 M$ par puce

📋 En bref

Anthropic puces IA : face à 30 Md$ de revenus et une demande de calcul explosive, le laboratoire étudie ses propres puces à 500 M$ pièce.

▸ Pourquoi Anthropic veut ses puces IA maison
▸ La vague des hyperscalers : histoire d'une verticalisation silencieuse
▸ 500 millions de dollars par puce : une barrière d'entrée massive
▸ Architecture Claude : pourquoi les GPU perdent en efficacité

Anthropic puces IA : le laboratoire envisage de concevoir ses propres puces d’intelligence artificielle. L’information, révélée par Reuters le 10 avril 2026 et relayée par Dataconomy, place Anthropic sur une trajectoire suivie avant lui par OpenAI, Google et Amazon : celle de la verticalisation matérielle. Cette décision, si elle se concrétise, changerait la structure économique même de la course aux modèles frontière.

Derrière cette annonce en apparence technique se cache une tension de fond. Anthropic affiche un run rate supérieur à 30 milliards de dollars annuels, triplé en quatre mois, et doit absorber une demande de calcul qui excède les capacités combinées de ses fournisseurs actuels. Fabriquer ses propres puces est à la fois une parade industrielle et un pari à un demi-milliard de dollars par génération.

Table of Contents

Pourquoi Anthropic veut ses puces IA maison

L’infrastructure de calcul d’Anthropic repose aujourd’hui sur un patchwork de trois fournisseurs : les TPU de Google, les puces Trainium d’Amazon, et les GPU Nvidia. Cette diversification, choisie à l’origine pour la résilience, crée aujourd’hui une inefficacité structurelle. Chaque backend nécessite des optimisations logicielles distinctes, les noyaux de calcul doivent être réécrits, et les performances varient d’un cluster à l’autre.

La conception d’une puce sur mesure permettrait de résoudre trois problèmes en parallèle. Optimiser le silicium pour les architectures spécifiques aux modèles Claude, réduire la dépendance à Nvidia dont les prix sont devenus des variables stratégiques majeures, et internaliser une partie de la marge actuellement captée par les fabricants de silicium.

L’accord annoncé fin mars 2026 avec Google et Broadcom pour déployer 3,5 gigawatts de capacité ne résout que partiellement le problème. Il sécurise le court terme, mais ne permet pas à Anthropic de maîtriser sa roadmap matérielle sur plusieurs générations de modèles.

La vague des hyperscalers : histoire d’une verticalisation silencieuse

Le mouvement qu’Anthropic s’apprête à rejoindre a commencé il y a dix ans. Google a été le pionnier avec sa première génération de TPU en 2015, initialement conçue pour accélérer les charges de recherche internes avant d’alimenter l’entraînement de ses modèles de langage à partir de 2018. Cinq générations plus tard, les TPU v5p animent Gemini et sont le socle de la puissance de calcul interne de Google.

Amazon a suivi avec une double stratégie. Graviton pour le calcul général ARM, et surtout Inferentia puis Trainium pour l’IA spécialisée. La génération Trainium 2 lancée en 2024 a été le premier challenger crédible aux GPU Nvidia sur l’inférence à grande échelle, avec un avantage de coût par token mesuré à 30-40 % sur certaines charges.

Microsoft a rejoint le mouvement plus tardivement avec sa puce Maia 100 dévoilée fin 2023, suivie de la génération Maia 2 début 2026. Meta opère sa propre ligne MTIA sur les charges d’inférence massives. Apple garde ses Neural Engine pour l’inférence embarquée, mais explore désormais des accélérateurs datacenter selon plusieurs sources industrielles.

Cette convergence n’est pas un hasard. Quand la facture annuelle de GPU dépasse quelques centaines de millions de dollars, le ROI d’une puce maison devient favorable même en intégrant les 500 M$ à un milliard de R&D silicium. Anthropic, avec son run rate de 30 milliards, vient d’atteindre ce seuil.

500 millions de dollars par puce : une barrière d’entrée massive

Les sources industrielles citées par Reuters estiment à environ 500 millions de dollars le coût de conception d’une puce IA avancée pour une seule version. Clubic détaille les contraintes : R&D silicium, masques de photolithographie, premiers lots de production et tests de validation. En y ajoutant les couches logicielles nécessaires — compilateurs, noyaux optimisés, runtime d’inférence — la facture peut doubler, atteignant le milliard de dollars pour une génération complète.

Ce chiffre explique pourquoi seuls les laboratoires avec des revenus massifs peuvent envisager cette voie. Pour Anthropic, si les puces IA maison permettent d’économiser 15 à 20 % du coût d’inférence sur Claude, le retour sur investissement se fait en 18 à 24 mois, à condition de maintenir le rythme de croissance actuel.

Le risque existe néanmoins. Concevoir une puce performante exige des équipes d’ingénieurs silicium expérimentés, un bien rare et coûteux. Anthropic part de zéro sur ce front : pas d’équipe dédiée, pas de design figé, pas de partenaire de fonderie annoncé. Les premiers prototypes ne pourraient pas émerger avant 2027 dans le meilleur des cas.

Architecture Claude : pourquoi les GPU perdent en efficacité

Pour comprendre l’intérêt d’une puce Anthropic sur mesure, il faut revenir au fonctionnement technique de Claude. Les modèles récents de la famille Opus 4.6 et Sonnet 4.6 reposent sur une architecture de transformeur avec mélange d’experts à activation sparse (MoE). Chaque token traité n’active qu’une fraction des paramètres du modèle, ce qui réduit le calcul effectif mais crée des motifs d’accès mémoire irréguliers.

Les GPU Nvidia H100 et B100 sont optimisés pour des charges massivement parallèles avec des accès mémoire réguliers. Sur une charge MoE, l’utilisation effective des unités de calcul tombe souvent à 40-50 %, contre 85-90 % sur un modèle dense équivalent. C’est cet écart qu’une puce custom peut capturer.

Le deuxième angle d’optimisation concerne le context long. Claude accepte désormais des contextes de un million de tokens, ce qui impose des contraintes fortes sur la bande passante mémoire et la gestion du cache d’attention. Une architecture de puce conçue avec un ratio mémoire / calcul plus agressif que les GPU généralistes peut améliorer le débit par watt de 30 à 50 % sur ces cas d’usage.

Enfin, l’inférence à faible latence — typique des agents conversationnels et des outils de codage comme Claude Code — bénéficie d’une spécialisation hardware. Les batchs sont plus petits, la latence compte davantage que le débit brut, et les GPU taillés pour l’entraînement s’y révèlent sur-dimensionnés.

OpenAI, trois longueurs d’avance

La comparaison avec OpenAI est éclairante. En octobre 2025, OpenAI a annoncé un partenariat avec Broadcom pour déployer 10 gigawatts d’accélérateurs IA de sa propre conception. La production de masse est prévue pour le second semestre 2026 chez TSMC, en gravure 3 nm. L’écart avec Anthropic sur les puces IA est donc de près de deux ans sur la roadmap matérielle.

Cet écart n’est pas seulement temporel. OpenAI a capitalisé sur ses relations étroites avec Microsoft et Broadcom pour bâtir une chaîne d’approvisionnement dédiée. Le laboratoire dispose aussi d’un volume d’inférence supérieur, qui justifie économiquement l’investissement silicium avec une marge plus confortable. La tension entre les deux rivaux s’exprime aussi sur le front commercial, comme le montre le mémo Dresser où OpenAI attaque Anthropic.

Broadcom, Marvell, MediaTek : les partenaires possibles

Sans équipe silicium interne, Anthropic devra s’appuyer sur un partenaire de conception. Trois candidats émergent selon les pratiques du secteur.

Broadcom reste le choix le plus évident techniquement, fort de son expérience avec Google TPU et OpenAI. Problème : l’engagement avec OpenAI jusqu’en 2027 au moins crée un conflit d’intérêt difficile. Anthropic serait servi en second rang, avec un partage d’équipe qui alerte la direction juridique des deux clients.

Marvell Technology représente une alternative crédible. L’entreprise a signé avec Amazon pour Trainium et avec Microsoft pour Maia, démontrant sa capacité à livrer des designs custom à l’échelle hyperscale. Sa charge de travail actuelle permettrait d’absorber un contrat Anthropic dès 2026, avec une équipe dédiée capable de livrer un premier tape-out sous 18 mois.

MediaTek est l’outsider intéressant. Le taïwanais pousse depuis deux ans une offre ASIC datacenter et dispose d’une relation privilégiée avec TSMC pour la 3 nm et la 2 nm à venir. Un partenariat Anthropic-MediaTek serait inattendu mais cohérent avec la stratégie asiatique du fondeur, et offrirait à Anthropic une voie plus autonome qu’une alliance avec Broadcom ou Marvell déjà engagés ailleurs.

Une quatrième voie, plus radicale, consisterait à acquérir directement une startup silicium comme Tenstorrent, Rain AI ou une scale-up plus discrète. Avec 30 milliards de run rate et des investisseurs prêts à injecter davantage, Anthropic en aurait les moyens. Cette option raccourcirait le délai de 12 à 18 mois au prix d’un risque d’intégration plus élevé.

Scénario économique : le calcul détaillé

Mettons les chiffres côte à côte. En avril 2026, Anthropic dépenserait entre 6 et 8 milliards de dollars annuels en capacité de calcul, répartis entre loyers TPU chez Google, crédits Trainium chez Amazon et GPU Nvidia via divers intermédiaires. Cette facture progresse de 25 % par trimestre selon les projections internes rapportées dans la presse.

Une puce maison optimisée permettrait de réduire de 15 à 20 % le coût par token d’inférence. Sur une enveloppe annuelle de 8 milliards, cela représente 1,2 à 1,6 milliard d’économies par an, une fois la puce déployée à l’échelle. L’investissement initial — 1 milliard pour la première génération complète incluant software stack — serait amorti en 9 à 12 mois de production à pleine capacité.

Le calcul se complique avec le time-to-market. Entre la décision d’investir aujourd’hui et la première production utile, il faut compter 24 à 30 mois. Pendant cette période, Anthropic continue à payer plein tarif à ses fournisseurs actuels. Le ROI se matérialise donc à horizon 2028-2029, pas avant.

Le mur énergétique, vrai goulet d’étranglement

Même avec des puces sur mesure, Anthropic ne résoudra pas seul le vrai goulet d’étranglement de la course à l’IA : l’énergie. Les 3,5 gigawatts négociés avec Google et Broadcom équivalent à la consommation électrique d’une métropole moyenne. Chaque génération de modèles consomme davantage, et la densification des datacenters atteint des limites physiques sur le refroidissement et l’approvisionnement électrique.

Dans ce contexte, les puces IA maison deviennent autant un levier d’efficacité énergétique qu’un levier de coût. Une architecture optimisée pour les motifs de calcul de Claude peut théoriquement réduire de 30 à 40 % la consommation par token par rapport à un GPU générique.

Conséquences pour l’écosystème

Trois acteurs vont ressentir l’effet de ce basculement. Nvidia, d’abord, voit un client à plusieurs milliards de dollars commencer à planifier sa sortie. Le phénomène n’est pas isolé : Google, Amazon, Microsoft et OpenAI ont tous pris le même chemin. La part de marché des GPU dans l’inférence pourrait passer de 80 % aujourd’hui à moins de 50 % d’ici 2028.

Les fonderies asiatiques, TSMC en tête, vont capter une demande croissante de production de puces personnalisées. Leur pouvoir de négociation s’accroît, leurs carnets de commandes se remplissent plusieurs années à l’avance. L’accès à la gravure 3 nm et à venir 2 nm devient un actif stratégique comparable à l’accès au pétrole dans les décennies précédentes.

Les laboratoires de taille moyenne, enfin, se retrouvent face à une alternative difficile. Sans les revenus pour justifier des puces IA maison, ils dépendront encore longtemps des GPU Nvidia, à des prix qui resteront élevés. Cette course aux infrastructures explique aussi la chute de la transparence documentée dans l’AI Index 2026 : les grands laboratoires protègent leurs avantages industriels.

Ce qu’il faut surveiller d’ici 12 mois

Plusieurs signaux permettront de mesurer la crédibilité du projet Anthropic. Le recrutement d’un responsable silicium senior, idéalement débauché chez Google, Apple ou Tesla, serait un premier marqueur. L’annonce d’un partenariat de conception avec Broadcom, Marvell ou un acteur équivalent en constituerait un deuxième. Enfin, un accord de capacité avec TSMC ou Samsung Foundry validerait l’engagement industriel.

Si ces trois étapes sont franchies d’ici fin 2026, Anthropic pourrait viser un premier tape-out de prototype en 2027, avec une production utile en 2028. Un calendrier serré, mais aligné sur la cadence de financement annoncée par les dirigeants du laboratoire.

Un basculement structurel

Au-delà du cas Anthropic, cette annonce sur les puces IA confirme une tendance lourde : les grands laboratoires IA deviennent des entreprises matérielles autant que logicielles. La séparation historique entre concepteurs de puces, opérateurs de datacenters et éditeurs de modèles s’efface. Les barrières à l’entrée se déplacent du talent scientifique vers le capital industriel.

Pour les entreprises utilisatrices de Claude, l’impact sera indirect mais réel. Les puces IA maison, quand elles arriveront, permettront des prix d’inférence plus stables et potentiellement des tailles de contexte plus généreuses. Elles conditionneront aussi la soutenabilité économique de la croissance d’Anthropic, donc la stabilité de l’offre commerciale. Un sujet à suivre aussi attentivement que les prochains modèles.

Mes lectures

Newsletter IA

Anthropic puces IA : un pari à 500 M$ par puce

Pourquoi Anthropic veut ses puces IA maison

La vague des hyperscalers : histoire d’une verticalisation silencieuse

500 millions de dollars par puce : une barrière d’entrée massive

Architecture Claude : pourquoi les GPU perdent en efficacité

OpenAI, trois longueurs d’avance

Broadcom, Marvell, MediaTek : les partenaires possibles

Scénario économique : le calcul détaillé

Le mur énergétique, vrai goulet d’étranglement

Conséquences pour l’écosystème

Ce qu’il faut surveiller d’ici 12 mois

Un basculement structurel

Astrid Carvalho

Mes lectures

Newsletter IA

Pourquoi Anthropic veut ses puces IA maison

La vague des hyperscalers : histoire d’une verticalisation silencieuse

500 millions de dollars par puce : une barrière d’entrée massive

Architecture Claude : pourquoi les GPU perdent en efficacité

OpenAI, trois longueurs d’avance

Broadcom, Marvell, MediaTek : les partenaires possibles

Scénario économique : le calcul détaillé

Le mur énergétique, vrai goulet d’étranglement

Conséquences pour l’écosystème

Ce qu’il faut surveiller d’ici 12 mois

Un basculement structurel

Articles similaires

Astrid Carvalho

Articles connexes

Project Glasswing : le modèle Mythos d’Anthropic déniche des milliers de failles zero-day avant sa sortie

GLM-5.1 : le modèle open source chinois qui dépasse Claude Opus 4.6 sur SWE-Bench Pro

OpenAI rachète six startups en trois mois : la stratégie d’acquisition s’accélère

Recevez l'actu IA chaque matin