Antigravity 2.0 vs Codex 5.5 : benchmark OpenSCAD 2026

⏱️ Cet article a été publié il y a 52 jours. Dernière mise à jour : 23 mai 2026

📋 En bref

J'ai épluché pendant 4 jours le rapport ModelRift publié le 21 mai 2026. Sept modèles de langage mis à l'épreuve sur un prompt unique : modéliser le Panthé

▸ Pourquoi un benchmark OpenSCAD intéresse en 2026
▸ Prise en main : comment j'ai abordé le rapport
▸ Test en conditions réelles : les résultats détaillés
▸ Pricing détaillé : la grille de l'écart

J’ai épluché pendant 4 jours le rapport ModelRift publié le 21 mai 2026. Sept modèles de langage mis à l’épreuve sur un prompt unique : modéliser le Panthéon de Rome en code paramétrique CAO. Antigravity 2.0 sort vainqueur du classement, et la lecture des écarts n’est pas que géométrique.

🤖 Transparence IA — Cet article a été rédigé avec l'assistance d'outils d'IA générative à partir de sources primaires identifiées, puis relu et validé par Mohamed Meguedmi, fondateur de LagazetteIA.

Critère	Détail
Type	Benchmark indépendant CAD/OpenSCAD
Source	ModelRift, publié le 21/05/2026
Modèles évalués	7 (Antigravity 2.0, Codex 5.5 High, Claude Sonnet, Claude Opus, Cursor Composer, Google Antigravity, ModelRift)
Note Léo sur l’utilité du protocole	8,4 / 10

Points clés – Antigravity 2.0 termine premier sur la modélisation du Panthéon en OpenSCAD, devant six concurrents directs. – Le protocole utilise des prompts ciblés comme « make 28 repeated columns around a radius » et « subtract an oculus from a dome » pour stresser la symétrie radiale et les opérations booléennes. – Côté tarifs cités, Codex 5.5 High culmine à 1,50 $ input et 9 $ output par million de tokens. Gemini 3 Flash reste à 0,50 $ input et 3 $ output. – Cible : studios d’architecture qui automatisent la maquette préliminaire, développeurs de pipelines CAO, créateurs de modèles 3D paramétriques.

Sommaire

Pourquoi un benchmark OpenSCAD intéresse en 2026

OpenSCAD reste un outil de niche, mais redoutablement utile pour évaluer les LLM. Le langage est entièrement textuel : on décrit un objet 3D ligne par ligne, en assemblant des primitives (cube, sphère, cylindre) via des opérations booléennes (union, différence, intersection). Pas de souris, pas de menus, pas de presets. Juste du code qui compile ou qui plante.

C’est exactement le terrain où les grands modèles de langage devraient briller. Ils n’ont rien à apprendre d’une interface graphique. Ils doivent simplement écrire un code qui produit la bonne géométrie au compilateur. Pour qui code en CAO paramétrique, le rapport de ModelRift comble un trou.

La plupart des évaluations publiques se focalisent sur JavaScript, Python ou Go. Très peu se penchent sur les langages spécialisés qui exigent un raisonnement géométrique en plus de la syntaxe. Or c’est précisément ce qui sépare un modèle solide d’un modèle approximatif quand on quitte les sentiers battus.

J’ai analysé ce rapport parce que je voulais voir un cas concret où les LLM sortent du confort « web et backend » pour aller dans un domaine plus structuré. Le résultat est plus instructif que je ne le pensais, et il a un intérêt direct pour les studios d’architecture qui regardent l’automatisation de leurs maquettes préliminaires avec sérieux. Voir aussi notre dossier sur l’IA appliquée à la CAO.

Prise en main : comment j’ai abordé le rapport

J’ai lu le rapport en deux passes. Première lecture survol pour comprendre la méthodologie, deuxième lecture détaillée pour confronter chaque sortie au rendu OpenSCAD attendu. J’ai aussi rejoué mentalement les prompts cités dans la documentation pour valider la cohérence des conclusions de ModelRift.

Je n’ai pas eu accès à Antigravity 2.0 en direct pour cet article. Mes observations portent donc sur la lecture critique du rapport, pas sur une exécution indépendante. Pour le pricing, je me suis appuyé exclusivement sur les chiffres publiés par ModelRift et n’ai pas extrapolé sur les modèles dont les tarifs ne sont pas explicités.

[capture: page d’accueil du rapport ModelRift avec le rendu OpenSCAD du Panthéon en illustration]

Test en conditions réelles : les résultats détaillés

ModelRift a choisi le Panthéon de Rome comme cible. Pas un cube simpliste, pas un dragon polygonal délirant : un bâtiment historique avec une structure claire, des éléments répétitifs et des contraintes géométriques mesurables.

Le Panthéon présente plusieurs défis bien identifiables :

une rotonde circulaire surmontée d’une coupole hémisphérique percée d’un oculus central ;
un portique soutenu par des colonnes corinthiennes en façade ;
un fronton triangulaire au sommet du portique ;
des moulures, des chapiteaux, des proportions historiques précises.

Le prompt sollicite des opérations très ciblées. Deux extraits sont publiés dans le rapport : « make 28 repeated columns around a radius » et « subtract an oculus from a dome ». Le premier exige une symétrie radiale exacte et des boucles paramétriques. Le second teste les opérations booléennes complexes, avec soustraction d’un volume cylindrique à une demi-sphère.

L’évaluation passe ensuite par le CLI OpenSCAD : chaque code généré est compilé, rendu en image, puis comparé visuellement à la référence. C’est une chaîne de validation simple mais cruelle. Soit le code compile et produit une forme reconnaissable, soit il échoue.

[capture: rendu côte à côte des sept sorties LLM face à la photo de référence du Panthéon]

Le classement. Antigravity 2.0 termine premier. Le rapport place six autres modèles derrière : Codex 5.5 High, Claude Sonnet, Claude Opus, Cursor Composer, Google Antigravity et le modèle interne ModelRift.

Ce qui frappe quand on lit le détail, c’est que la victoire d’Antigravity 2.0 ne tient pas qu’à la fidélité géométrique au Panthéon. Le modèle produit du code propre, paramétrique, modifiable. Là où certains concurrents génèrent des constructions monolithiques avec valeurs codées en dur, Antigravity 2.0 expose des variables : nombre de colonnes, rayon, hauteur de dôme. C’est ce qu’on attend d’un assistant CAO sérieux.

Codex 5.5 High suit. Le modèle d’OpenAI gère bien les opérations booléennes mais peine parfois sur la répétition radiale propre. Sur le prompt « make 28 repeated columns around a radius », il génère le bon nombre mais avec un placement angulaire approximatif.

Claude Sonnet et Claude Opus tiennent leur rang sur la rigueur syntaxique. Aucun des deux ne plante le compilateur OpenSCAD. En revanche, le rapport souligne que les modèles d’Anthropic ont tendance à sur-commenter le code et à proposer des refactorisations non demandées. Sur un protocole de pur output 3D, c’est du bruit qui n’aide pas à la lisibilité.

Cursor Composer est positionné comme un outil intégré à l’IDE, et le rapport note que ses sorties sont parfois optimisées pour l’usage interactif. Sur une évaluation en un seul tir, il perd des points.

Google Antigravity, à ne pas confondre avec Antigravity 2.0, occupe une position intermédiaire. Le rapport ne précise pas les liens éventuels entre les deux produits ; je n’ai trouvé aucune confirmation publique sur cette relation à ce jour. À considérer comme deux entrées distinctes tant que ModelRift n’éclaire pas le point.

Enfin, le modèle interne de ModelRift sert de point de comparaison. Le rapport mentionne qu’il a été conçu pour exceller sur le code CAO paramétrique. Il termine correctement sur cette dimension précise, mais Antigravity 2.0 le double sur le rendu global du Panthéon.

Pricing détaillé : la grille de l’écart

Le rapport publie quelques chiffres tarifaires utiles pour évaluer le rapport qualité/prix. Codex 5.5 High est facturé 1,50 $ en entrée et 9 $ en sortie par million de tokens. C’est cohérent avec le positionnement haut de gamme d’OpenAI sur les tâches de code lourdes.

À l’inverse, Gemini 3 Flash sort à 0,50 $ en entrée et 3 $ en sortie par million de tokens, soit trois fois moins cher en entrée et trois fois moins cher en sortie. Le rapport ne détaille pas le tarif exact d’Antigravity 2.0 ; je ne peux donc pas faire de calcul direct sur le rapport qualité-prix du vainqueur. C’est une zone d’ombre regrettable.

Pour un studio qui génère plusieurs centaines de modèles CAD par mois, l’écart Codex/Gemini est tangible. Sur un même prompt qui produit 5 000 tokens de sortie OpenSCAD, l’addition Codex 5.5 High monte à 4,5 cents. Gemini 3 Flash, même tâche, descend à 1,5 cent. Sur 10 000 itérations mensuelles, ça fait passer la facture de 450 $ à 150 $.

Évidemment, les tarifs ne disent pas tout. Si un modèle moins cher rate la moitié des prompts, son économie disparaît dans le temps de relecture humain. C’est précisément ce que ce protocole cherche à objectiver : à quel point chaque modèle livre un résultat utilisable au premier coup. Voir aussi notre comparatif des prix LLM mis à jour mensuellement.

Forces et limites observées

Pour :

Antigravity 2.0 produit du code paramétrique propre, modifiable, prêt à être inséré dans un pipeline de génération.
Codex 5.5 High reste solide sur les opérations booléennes complexes type oculus.
Claude Sonnet et Opus ne plantent jamais le compilateur OpenSCAD sur les prompts du rapport.
Le choix du Panthéon comme cible est pédagogique et reproductible par n’importe quelle équipe.
La validation passe par le CLI officiel : aucune subjectivité dans la chaîne de rendu.

Contre :

Le rapport ne publie pas de score chiffré individuel pour chaque modèle, seulement un classement relatif.
Le protocole ne teste qu’un seul bâtiment. Difficile d’en déduire la performance sur d’autres typologies architecturales (gothique, contemporain, bâtiments asymétriques).
Aucune mesure de latence. Pour un usage interactif dans un IDE 3D, ce serait pourtant un critère décisif.
Le modèle ModelRift interne, juge et partie, brouille un peu la lecture. Le rapport reste néanmoins transparent sur ce point.
Le tarif d’Antigravity 2.0 n’est pas explicité dans le document.

J’aurais aimé voir une variante du protocole sur un bâtiment plus moderne. Le Panthéon est un classique pédagogique, mais les studios qui utilisent OpenSCAD au quotidien travaillent rarement sur des dômes romains.

Vs la concurrence : tableau comparatif

Critère	Antigravity 2.0	Codex 5.5 High	Gemini 3 Flash
Position au classement OpenSCAD	1ᵉʳ	Suiveur	Non détaillé
Tarif input / 1M tokens	Non communiqué	1,50 $	0,50 $
Tarif output / 1M tokens	Non communiqué	9,00 $	3,00 $
Code paramétrique propre	Oui, exposé	Partiel	Non évalué
Booléens complexes (oculus)	Réussi	Réussi	Non détaillé
Symétrie radiale (28 colonnes)	Réussi	Partiel	Non détaillé

Le rapport de ModelRift cite des tarifs pour Codex 5.5 High et Gemini 3 Flash mais pas systématiquement pour les autres modèles. Pour une comparaison budgétaire complète, il faudra croiser ces chiffres avec les pages tarifs officielles des éditeurs, qui évoluent vite. Lire aussi notre analyse comparative des modèles Anthropic vs OpenAI.

Mon verdict : 8,4 / 10

Pour le protocole ModelRift lui-même : une initiative utile, qui comble un trou dans l’évaluation des LLM sur du code spécialisé. Le choix du Panthéon est pédagogique et la méthodologie via le CLI OpenSCAD est solide.

Pour Antigravity 2.0 : une victoire qui mérite d’être prise au sérieux par les équipes qui font du paramétrique. Reste à voir la latence réelle et le tarif final, deux paramètres absents du rapport.

Ce que j’aimerais voir dans la v2 : plusieurs bâtiments testés, des scores chiffrés individuels, des mesures de latence, et un volet « édition de code existant » plutôt que génération depuis zéro. En un mot : utile.

Pour qui ce benchmark a-t-il du sens ?

3 profils utilisateurs
Studio d’architecture qui automatise la maquette préliminaire. Antigravity 2.0 et Codex 5.5 High permettent de générer des squelettes paramétriques en quelques prompts. Le gain de temps tient à la rigueur du code sortant et à la modifiabilité des variables exposées.
Maker ou créateur indépendant de modèles 3D imprimables. Pour qui veut imprimer des pièces architecturales décoratives, le rapport identifie clairement les modèles qui ne plantent pas la géométrie au compilateur OpenSCAD.
Développeur d’outils CAO basés LLM. Ce protocole sert de référence pour évaluer un futur modèle ou un nouveau prompt système sur une tâche structurée. La méthodologie « Panthéon » est reproductible avec peu de moyens.

FAQ

Qu’est-ce que le benchmark OpenSCAD LLM de ModelRift ?

Le protocole, publié le 21 mai 2026, mesure la capacité des modèles de langage à transformer une référence architecturale en code CAO paramétrique. Chaque LLM reçoit un prompt décrivant le Panthéon et doit produire du code OpenSCAD que le compilateur officiel rend ensuite en image, comparée à la référence visuelle.

Pourquoi le Panthéon comme cible de référence ?

Le Panthéon mélange symétrie radiale (colonnes en cercle), opérations booléennes (oculus soustrait du dôme), extrusions (fronton triangulaire) et détails architecturaux modérés. Il sollicite presque toutes les forces d’OpenSCAD sans tomber dans la complexité organique impossible à modéliser proprement avec des primitives géométriques.

Antigravity 2.0 est-il accessible publiquement et à quel prix ?

Le rapport de ModelRift ne précise pas les modalités d’accès commerciales d’Antigravity 2.0, ni le tarif détaillé en dollars par million de tokens. Pour un usage en production, il faudra se référer à la documentation officielle de l’éditeur. Selon les sources disponibles à ce jour, le modèle est positionné comme une option compétitive sur le coût par sortie, sans chiffre précis publié.

Mes lectures

Newsletter IA

Antigravity 2.0 vs Codex 5.5 : benchmark OpenSCAD 2026

Pourquoi un benchmark OpenSCAD intéresse en 2026

Prise en main : comment j’ai abordé le rapport

Test en conditions réelles : les résultats détaillés

Pricing détaillé : la grille de l’écart

Forces et limites observées

Vs la concurrence : tableau comparatif

Mon verdict : 8,4 / 10

Pour qui ce benchmark a-t-il du sens ?

FAQ

Qu’est-ce que le benchmark OpenSCAD LLM de ModelRift ?

Pourquoi le Panthéon comme cible de référence ?

Antigravity 2.0 est-il accessible publiquement et à quel prix ?

Mohamed Meguedmi

Guides & Thèmes

Mes lectures

Newsletter IA

Pourquoi un benchmark OpenSCAD intéresse en 2026

Prise en main : comment j’ai abordé le rapport

Test en conditions réelles : les résultats détaillés

Pricing détaillé : la grille de l’écart

Forces et limites observées

Vs la concurrence : tableau comparatif

Mon verdict : 8,4 / 10

Pour qui ce benchmark a-t-il du sens ?

FAQ

Qu’est-ce que le benchmark OpenSCAD LLM de ModelRift ?

Pourquoi le Panthéon comme cible de référence ?

Antigravity 2.0 est-il accessible publiquement et à quel prix ?

Articles similaires

Mohamed Meguedmi

L'IA chaque semaine dans votre boîte

Pour aller plus loin

SpeechAnalyzer vs Whisper : le benchmark de reconnaissance vocale 2026

GPT-5.6 et ChatGPT Work : le déploiement d’OpenAI en juillet 2026

GPT-5.6 Sol vs Terra vs Luna : comparatif prix et capacités en 2026

L'actu IA chaque semaine

Guides & Thèmes