- ▸ Deux modèles, deux échelles d'usage
- ▸ Pourquoi un modèle « physique » change la donne
- ▸ Contenu technique et ressources disponibles
- ▸ Ce que ça change concrètement
NVIDIA dévoile Cosmos 3, premier modèle omni ouvert dédié au raisonnement et à l’action physiques. Deux variantes sont proposées : Nano à 8 milliards de paramètres et Super à 32 milliards. Les poids sont disponibles sur Hugging Face dès ce lundi 1er juin 2026, accompagnés des cartes de modèle et des licences associées.
Points clés – Cosmos 3 Nano embarque 8 milliards de paramètres répartis entre un raisonneur et un générateur, optimisé pour l’inférence efficace sur infrastructures contraintes. – Cosmos 3 Super pousse à 32 milliards de paramètres et cible la génération de données synthétiques à grande échelle sur GPU NVIDIA Hopper et Blackwell. – Les deux modèles sont publiés en open weights sur Hugging Face, avec scripts d’entraînement personnalisables pour la robotique, les véhicules autonomes et la simulation industrielle.
Deux modèles, deux échelles d’usage
NVIDIA ouvre la famille Cosmos 3 selon l’annonce publiée ce lundi 1er juin 2026 sur le blog Hugging Face de l’éditeur. Le constructeur scinde son offre en deux paliers calibrés sur des contraintes matérielles distinctes.
Cosmos 3 Nano compte 8 milliards de paramètres au total, répartis entre un module de raisonnement et un module de génération de taille identique. Cette architecture duale vise l’inférence efficace, selon la fiche modèle publiée. Le format cible des déploiements embarqués et des prototypes de recherche.
Cosmos 3 Super quadruple la mise avec 32 milliards de paramètres, là encore répartis entre raisonneur et générateur. NVIDIA réserve cette configuration aux GPU Hopper et Blackwell, ses deux générations d’accélérateurs de centre de données. La cible : la génération synthétique de données à grande échelle, qualifiée par NVIDIA de « synthetic data generation » (SDG), c’est-à-dire la fabrication de jeux d’images, de vidéos et de trajectoires utilisés pour entraîner d’autres modèles.
Pourquoi un modèle « physique » change la donne
Les grands modèles de langage actuels manipulent du texte, du code et des images statiques. Cosmos 3 s’inscrit dans une catégorie distincte : la Physical AI, dédiée à la compréhension du monde matériel. Cette ligne, ouverte par NVIDIA dès 2024 avec la première version de Cosmos, cible la robotique, les véhicules autonomes et les environnements industriels simulés.
Le terme omni-model traduit la polyvalence des entrées et sorties : texte, image, vidéo, et signaux d’action peuvent être traités par le même modèle. Cette intégration vise à réduire l’empilement de modèles spécialisés qui caractérisait jusqu’ici les piles logicielles de robotique.
La publication en open weights — c’est-à-dire la mise à disposition libre des paramètres du modèle — distingue cette annonce. NVIDIA prend ainsi pied dans un segment où Meta, avec V-JEPA, et Google DeepMind, avec Genie, opèrent en mode plus fermé.
Contenu technique et ressources disponibles
La page Hugging Face publie ce lundi les cartes de modèle complètes, les licences d’usage et des scripts d’entraînement. Les développeurs peuvent ainsi affiner Cosmos 3 sur leurs propres jeux de données, une faculté décisive pour adapter le modèle à des cas industriels spécifiques.
NVIDIA documente également l’intégration via la bibliothèque Diffusers, le standard de fait pour les modèles génératifs sur Hugging Face. Un extrait de code publié montre l’usage de torch_dtype=torch.bfloat16 et de la directive device_map, indiquant un fonctionnement nativement compatible avec la précision réduite bfloat16, utilisée pour économiser la mémoire GPU.
Les exemples d’inférence partagés par l’éditeur illustrent la génération de scènes vidéo : « A medium shot of a modern robotics research laboratory with white walls and a gray floor », ou encore « A robotic arm with a metallic finish is mounted on a clean white workbench, its gripper positioned above a row of small colored objects ». Ces sorties montrent un niveau de détail spatial cohérent avec les ambitions de simulation industrielle.
Ce que ça change concrètement
Pour les laboratoires de robotique, Cosmos 3 Nano ouvre la porte à des cycles d’expérimentation accélérés sur stations de travail standard. Pour les éditeurs de simulation, la version Super promet de générer en interne les volumes de données synthétiques jusqu’ici sous-traités à des prestataires. Le marché de la SDG, estimé en croissance rapide, gagne ainsi un acteur intégré verticalement, de la puce au modèle.
FAQ
Qu’est-ce qui distingue Cosmos 3 des précédentes versions Cosmos ?
Cosmos 3 introduit une architecture omni unifiant raisonnement et génération dans une même famille de modèles, ce que les précédentes itérations distribuaient entre plusieurs composants spécialisés. Les variantes Nano et Super couvrent désormais un spectre d’usage allant de l’inférence embarquée à la génération synthétique massive.
Quelles applications industrielles vise Cosmos 3 ?
Selon la documentation NVIDIA publiée le 1er juin 2026, les cibles prioritaires sont la simulation robotique, les véhicules autonomes, les espaces intelligents et la génération de données synthétiques pour l’apprentissage automatique. Les scripts d’entraînement personnalisés permettent d’adapter les modèles à des domaines verticaux spécifiques.
À suivre
Les premiers benchmarks indépendants devraient apparaître dans les semaines suivant la publication. À surveiller : la consommation mémoire effective de la version Super sur Hopper, et les premières intégrations dans les piles ROS 2 utilisées par la robotique académique. À lire aussi : NVIDIA et la stratégie open weights pour la robotique.



