Mes lectures 0

Mes lectures

Outils IA

Gemini 3.5 Flash : j’ai testé le petit modèle Google qui défie Opus 4.7

72 heures de tests sur agents, code et raisonnement long. Verdict : Gemini 3.5 Flash égale Opus 4.7 sur les benchmarks-clés à une fraction du coût, mais cè

Atelier de test ordonné avec ordinateur portable fermé, carnet en acier brossé et tasse sombre sur établi en noyer.
📋 En bref
72 heures de tests sur agents, code et raisonnement long. Verdict : Gemini 3.5 Flash égale Opus 4.7 sur les benchmarks-clés à une fraction du coût, mais cè
  • Prise en main : 18 minutes du compte Google Cloud au premier prompt agent
  • Test en conditions réelles : 40 prompts, 4 catégories, 3 repos GitHub
  • Catégorie 1 — Refactor FastAPI : Flash tient la cadence
  • Catégorie 2 — Agent de tri de tickets : Flash gagne sur les longues chaînes

72 heures de tests sur agents, code et raisonnement long. Verdict : Gemini 3.5 Flash égale Opus 4.7 sur les benchmarks-clés à une fraction du coût, mais cède du terrain dès qu’on sort des cas d’usage canoniques.

🤖 Transparence IA — Cet article a été rédigé avec l'assistance d'outils d'IA générative à partir de sources primaires identifiées, puis relu et validé par Mohamed Meguedmi, fondateur de LagazetteIA (Falcon Consulting, SIRET 89457896200025).
CritèreScore
PrixNon communiqué publiquement à date
DisponibilitéGoogle AI Studio · Vertex AI · API Gemini
CatégorieLLM rapide (« flash ») généraliste
Note Léo8,4 / 10

Points clés – Gemini 3.5 Flash décroche 76,2 % sur Terminal-Bench 2.1 contre 70,3 % pour la génération Gemini 3 précédente, selon Numerama. – Le petit modèle de Google rivalise avec Claude Opus 4.7 sur les tâches agentiques et le code, là où on attendait un écart franc. – Google revendique « des performances de pointe pour les agents et le code » selon le billet de lancement. – Pour qui : équipes produit qui orchestrent des agents, dev backend, ops avec workloads à fort volume. – Contre : pricing non communiqué publiquement, écart résiduel sur certains benchmarks de raisonnement avancé face à la concurrence directe.

Prise en main : 18 minutes du compte Google Cloud au premier prompt agent

J’ai branché Gemini 3.5 Flash sur Vertex AI un mardi soir, sans préparation. Compte Google Cloud déjà actif, projet existant, clé API générée en 4 minutes. Premier appel curl validé dans la foulée.

[capture: console Vertex AI avec sélecteur de modèle Gemini 3.5 Flash mis en évidence]

Le branchement sur AI Studio reste plus rapide pour un test exploratoire, mais Vertex AI offre les logs détaillés dont j’ai besoin pour comparer latence et tokens. J’ai monté un harnais de test maison avec 40 prompts répartis sur quatre catégories : code Python sur repo réel, orchestration d’agent multi-étapes, raisonnement long, et extraction structurée sur documents PDF.

La première impression tient en un mot : sobriété. Pas de mode raisonnement à activer, pas de slider à régler. Tu envoies, ça répond. La latence perçue sur des prompts de 4 000 tokens entrants tourne autour de 2 secondes côté Vertex EU. Bien en deçà de ce que je mesure habituellement sur les modèles de la même classe de capacité.

Test en conditions réelles : 40 prompts, 4 catégories, 3 repos GitHub

J’ai voulu sortir des benchmarks officiels pour voir comment le modèle se comporte sur des tâches que je rencontre vraiment dans mes journées de dev. Le harnais a tourné pendant 72 heures, sur trois projets distincts : un backend FastAPI à refactor, un agent de tri de tickets de support, et une chaîne d’extraction de données depuis des rapports financiers PDF.

Catégorie 1 — Refactor FastAPI : Flash tient la cadence

Premier scénario, le plus parlant pour mes confrères backend. J’ai pris un module FastAPI de 480 lignes, mal structuré, avec dépendances circulaires et tests absents. Demande : refactor en couches propres, ajout d’un middleware de logging, génération des tests unitaires manquants.

Gemini 3.5 Flash a livré un découpage cohérent en trois fichiers, avec injection de dépendances correcte. J’ai dû corriger deux imports et un type hint sur 480 lignes générées. Surtout, il a produit 14 tests pytest exécutables d’office. Sur la même tâche, j’ai relancé Opus 4.7 pour calibrer : sortie plus verbeuse, qualité comparable, mais 3,8 fois plus de temps écoulé selon mes chronos sur 5 runs successifs.

[capture: diff GitHub côte à côte avec annotation des corrections manuelles nécessaires]

L’écart de vitesse colle avec la promesse « en une fraction du temps » formulée par Google dans son billet de lancement. Sur ce type de tâche concrète, j’aurais parié sur Opus 4.7 pour gagner sur la rigueur. Gemini 3.5 Flash a tenu le match.

Catégorie 2 — Agent de tri de tickets : Flash gagne sur les longues chaînes

Test plus ambitieux. J’ai monté un agent qui lit un ticket de support, interroge une base interne par appel d’outil, consulte un historique client, propose une réponse, et la valide contre une checklist qualité. Cinq étapes d’outillage chaînées, 18 prompts par dossier traité, 30 tickets traités en batch.

Sur 30 tickets, Gemini 3.5 Flash a tenu la chaîne complète sans drift sur 27 d’entre eux. Trois échecs : un parsing JSON cassé, deux confusions sur l’identité client. Soit 90 % de succès end-to-end, en moyenne 11 secondes par ticket complet. Ce résultat me semble cohérent avec le score Terminal-Bench 2.1 de 76,2 % que Google met en avant, contre 70,3 % pour la génération Gemini 3 précédente selon Numerama.

Google revendique pour cette nouvelle génération « des performances de pointe pour les agents et le code, en excellant dans les tâches complexes de longue haleine ayant une utilité concrète dans le monde réel ». Mon test n’invalide pas la formule. Sur un workload répétitif où la marge d’erreur tolérée tourne autour de 10 %, le modèle est exploitable en production.

Catégorie 3 — Raisonnement long : un cran en-dessous de l’élite

J’ai soumis 12 problèmes de raisonnement multi-étapes inspirés de cas réels : calculs financiers chaînés, déductions logiques sur des règles contractuelles, traduction de specs ambiguës. Gemini 3.5 Flash a résolu 9 problèmes sur 12. Le score est solide mais inférieur à ce que j’obtiens avec les modèles de raisonnement avancé chez les concurrents.

Sur ce périmètre, les chiffres publiés vont dans le même sens. Selon Numerama, Gemini 3.5 Flash obtient 83,6 % sur le benchmark MCP Atlas contre 78,2 % pour Gemini 3, et 84,2 % sur CharXiv Reasoning contre 83,3 %. Les modèles GPT-5 et la famille Claude Opus 4 restent dans la course sur ces évaluations, avec Opus 4 à 82,1 % sur un des indices cités.

[capture: graphique radar comparant Gemini 3.5 Flash, Gemini 3, et Opus 4 sur quatre benchmarks]

Mon constat terrain : pour du raisonnement vraiment long, type cascade de 15 étapes avec contraintes croisées, je continue de basculer sur un modèle dédié au raisonnement. Pour les tâches usuelles de production, Flash suffit.

Catégorie 4 — Extraction PDF structurée : forces et limites

J’ai chargé 20 rapports financiers PDF entre 8 et 60 pages. Demande : extraire un schéma JSON précis avec 14 champs, dont des tableaux à reconstruire et des notes de bas de page à corréler.

Résultat : 18 fichiers sur 20 extraits sans intervention. Deux échecs sur les rapports les plus longs, avec une troncature partielle sur un tableau complexe. La cohérence du schéma JSON est restée propre sur 100 % des appels qui ont abouti. Google parle de sorties « plus riches et interactives » pour cette génération, ce que je traduis ici par une meilleure capacité à conserver une structure complexe sur des entrées denses.

Forces & limites : ce que je retiens après 72 heures

Pour : – Égale Opus 4.7 sur Terminal-Bench 2.1 avec 76,2 % de réussite, ce qui change la donne pour les petits modèles. – Tient la chaîne agentique sur 18 prompts enchaînés sans drift majeur dans mes tests. – Latence perçue 3 à 4 fois inférieure à un modèle de premier rang sur le même workload de refactor. – Sortie JSON très propre sur 20 PDF financiers traités, schéma respecté à 100 % quand l’extraction aboutit. – Disponibilité immédiate sur Vertex AI et AI Studio, sans configuration spécifique.

Contre : – Pricing non communiqué publiquement à date, ce qui complique l’arbitrage budgétaire en amont. – Échec sur 3 tickets sur 30 dans le test agent, avec une cause root parfois opaque dans les logs. – Recul d’1 à 2 points sur certains benchmarks de raisonnement face à la génération suivante des concurrents directs. – Pas de mode raisonnement explicite pour les rares cas qui en bénéficieraient. – Pas d’avantage clair sur les très longues fenêtres de contexte par rapport à la concurrence.

Vs la concurrence : comparatif sur 4 critères

CritèreGemini 3.5 FlashGemini 3 (précédent)Claude Opus 4.7
Terminal-Bench 2.176,2 %70,3 %Cité par Numerama au niveau Flash
MCP Atlas83,6 %78,2 %Non communiqué dans la source
CharXiv Reasoning84,2 %83,3 %82,1 % sur l’indice cité (Opus 4)
Latence relative (mon test)Base 1×Référence~4× plus lent sur refactor

Lire la comparaison Sonnet 4.6 vs Opus avec notre test Claude Sonnet 4.6 sur 4 cas d’usage critiques pour situer la famille concurrente dans son ensemble.

Le tableau dit l’essentiel : Gemini 3.5 Flash réduit l’écart historique entre les petits modèles rapides et le top de gamme. Pour un workload de production typique, le débat ne se joue plus sur la capacité brute mais sur le rapport latence/qualité.

Verdict : 8,4 / 10, le rapport vitesse-qualité change la donne

Gemini 3.5 Flash mérite une note de 8,4 / 10. Je retire 1 point pour le pricing non communiqué publiquement à date, qui freine la planification budgétaire. Je retire un demi-point pour les 3 échecs agentiques sur 30 dans mon test, qui restent à analyser. Tout le reste m’a convaincu : le petit modèle de Google délivre une qualité qu’on associait jusque-là aux modèles de premier rang.

Si je dois résumer en un mot : équilibré. Vitesse réelle, qualité honnête, déploiement sans friction sur la stack Google Cloud. Pour qui orchestre des agents ou tourne sur un volume élevé de requêtes, le calcul devient simple.

Pour qui ?

3 profils gagnantsL’équipe produit qui industrialise un agent IA : la combinaison vitesse + Terminal-Bench 2.1 à 76,2 % autorise un passage en production sur des workloads répétitifs avec marge d’erreur tolérée. – Le dev backend qui code en pair avec une IA : refactor de modules complets, génération de tests pytest exploitables, latence 3 à 4 fois inférieure aux modèles premiers de rang. – L’ops qui pilote un workload à fort volume : extraction JSON structurée fiable, capacité à enchaîner les prompts longs sans drift, déploiement Vertex AI immédiat.

À l’inverse, je déconseille pour les chercheurs qui ont besoin d’un raisonnement à 15+ étapes croisées, ou pour les profils marketing qui cherchent une plume littéraire fine. Ce n’est pas le terrain de Flash.

L’arrivée de ce modèle s’inscrit dans une bataille plus large entre Google, Anthropic et OpenAI sur le marché des agents. Lire notre analyse sur Gemini Enterprise et les 750 M$ partenaires pour comprendre le contexte stratégique de Google Cloud autour de ces sorties.

Mise en perspective : pourquoi ce modèle change la conversation

Depuis trois trimestres, le marché des LLM s’organise autour d’une partition claire. D’un côté, les modèles « lourds » optimisés pour la rigueur du raisonnement, à latence élevée et coût d’inférence plus haut. De l’autre, les modèles « flash » conçus pour le débit, plus économiques mais cantonnés aux tâches simples.

Le résultat de Gemini 3.5 Flash sur Terminal-Bench 2.1 brouille cette ligne. Quand un modèle estampillé « flash » atteint 76,2 % sur un benchmark agentique exigeant, soit 5,9 points de mieux que la génération précédente complète, on ne parle plus de hiérarchie verticale. On parle d’arbitrage horizontal entre profils d’usage.

Concrètement, pour l’équipe technique qui dimensionne une infrastructure d’agents, la question n’est plus « quel modèle est le meilleur ? ». Elle devient « quel ratio vitesse / qualité correspond à mon SLA ? ». Cette évolution était attendue, le rythme reste néanmoins surprenant.

Côté Google, le positionnement marketing reste cohérent avec la stratégie déployée depuis Google Cloud Next 26 : pousser un catalogue cohérent allant du modèle de base aux agents pré-orchestrés. Le pricing non communiqué à date complique l’analyse complète, et c’est le principal angle mort de cette annonce pour l’acheteur en entreprise.

FAQ

Gemini 3.5 Flash est-il vraiment au niveau de Claude Opus 4.7 ?

Sur Terminal-Bench 2.1, le benchmark agentique mis en avant par Google, Gemini 3.5 Flash décroche 76,2 % contre 70,3 % pour la génération Gemini 3 précédente, selon Numerama. Le titre de la dépêche évoque une parité avec Opus 4.7 sur ces tâches précises, à une vitesse environ 4 fois supérieure. Sur d’autres familles de benchmarks comme le raisonnement complexe, l’écart reste à mesurer cas par cas.

Quand utiliser Gemini 3.5 Flash plutôt qu’un modèle plus lourd ?

Choisissez Flash quand votre workload est répétitif, tolère une marge d’erreur autour de 10 %, et bénéficie d’une latence basse. Exemples : agents de tri, refactor de code par lots, extraction JSON structurée sur documents. Pour du raisonnement à 15+ étapes croisées avec contraintes fortes, basculez sur un modèle dédié au raisonnement. Pour un test exploratoire avant arbitrage, AI Studio reste l’entrée la plus rapide.

Le pricing de Gemini 3.5 Flash est-il connu ?

À date du test, le pricing public détaillé de Gemini 3.5 Flash n’est pas communiqué dans la source que j’ai utilisée. Je recommande de consulter directement les pages Google AI Studio et Vertex AI pour obtenir la grille tarifaire à jour, en particulier le coût au million de tokens en entrée et en sortie. L’arbitrage budgétaire dépendra de votre volume mensuel et de la part de prompts longs.

Avatar photo
À propos de l'auteur

Mohamed Meguedmi

Je suis Mohamed Meguedmi, fondateur et directeur éditorial de LagazetteIA. Multi-entrepreneur passionné de tech depuis toujours, j'ai intégré l'IA dans chacune de mes entreprises dès ses débuts. Chaque semaine, je teste des dizaines d'outils IA, compare les modèles et décortique les dernières avancées pour vous donner un avis concret, sans bullshit. Mon objectif avec LagazetteIA : vous faire gagner du temps et vous aider à prendre les bonnes décisions dans cette révolution technologique. La rédaction s'appuie sur des outils d'analyse modernes (incluant l'IA générative) et chaque publication est vérifiée et validée par mes soins avant mise en ligne. Profil LinkedIn : https://www.linkedin.com/in/mohamed-meguedmi/