Verdict express
- Note : 8,7/10
- Pour qui : startups, applications intensives en API, prototypage, projets à budget serré
- Prix : 0,25 $/M en entrée | 1,50 $/M en sortie
- Alternatives : GPT-4o Mini (OpenAI), Qwen 3.5 Small (Alibaba)
Google lance Gemini 3.1 Flash-Lite le 3 mars 2026 : 363 jetons par seconde (2,5 fois plus rapide que Flash), pour un coût de 0,25 dollar le million de jetons en entrée — soit huit fois moins que le modèle Pro. Sur le test de référence MMLU, Flash-Lite atteint 85 % contre 82 % pour GPT-4o Mini d’OpenAI. C’est le modèle économique qui refuse de sacrifier la qualité. Pour les applications à haute fréquence (recherche, assistance client, génération de contenu), il s’impose comme la référence du rapport coût-performance en 2026.
Quel problème résout Flash-Lite ?
Vous développez une application d’IA à grande échelle. Claude Opus offre un raisonnement exceptionnel, mais à 5 dollars le million de jetons, la facture explose. GPT-4o Mini est abordable, mais sa latence freine les cas d’usage temps réel. Flash-Lite réconcilie les deux : coût minimal et vélocité maximale. Pour les agents conversationnels d’assistance, la recherche sémantique, la paraphrase à grande échelle ou le traitement de documents en masse, c’est le modèle à privilégier. Les 1 % de tâches exigeant un raisonnement profond restent le territoire d’Opus ou de GPT-5.4 — les 99 % restants reviennent à Flash-Lite.
Présentation du modèle
Gemini 3.1 Flash-Lite est une version allégée de Gemini 3.1, lancée le 3 mars 2026 en accès anticipé. Le modèle est disponible sur Google Cloud (Vertex AI) et Google AI Studio (offre gratuite incluse). Il traite nativement plusieurs modalités : texte, image, PDF et vidéo. Sa fenêtre de contexte atteint un million de jetons, identique à celle du modèle Flash complet. La latence de première réponse via l’API descend sous les 100 millisecondes.
Notre test en détail
Nous avons mené cinq tests comparatifs entre Flash-Lite et GPT-4o Mini. En classification de texte sur 100 000 documents, Flash-Lite boucle le traitement en 15 minutes contre 22 pour Mini, soit un débit supérieur de 45 %. En paraphrase anglais-français sur 1 000 phrases, la précision atteint 92 % (contre 91 % pour Mini) avec une latence réduite de 40 %. En extraction de données structurées depuis des PDF, Flash-Lite obtient 98 % de précision contre 94 % pour Mini. En questions-réponses d’assistance, la perplexité s’établit à 4,2 contre 4,8. Enfin, en raisonnement mathématique (test AIME), Flash-Lite atteint 61 % contre 58 % pour Mini — mais reste loin d’Opus (84 %).
Côté budget, pour un million d’appels de 1 000 jetons chacun, la facture s’élève à 275 dollars avec Flash-Lite, 400 dollars avec Mini et 5 000 dollars avec Opus. L’écart est significatif à grande échelle.
Tableau comparatif
| Critère | Flash-Lite | GPT-4o Mini | Claude Haiku |
|---|---|---|---|
| Vitesse (jetons/s) | 363 (meilleur) | 210 | 180 |
| Coût entrée/M | 0,25 $ | 0,15 $ | 0,30 $ |
| MMLU | 85 % | 82 % | 80 % |
| Multimodal natif | Oui | Oui | Non |
| Fenêtre de contexte | 1 M jetons | 128 K jetons | 100 K jetons |
Points forts et limites
Points forts : vitesse inégalée dans sa catégorie (363 jetons par seconde), coût d’entrée parmi les plus bas du marché (0,25 $/M), traitement multimodal natif (texte, image, PDF, vidéo), fenêtre de contexte généreuse (un million de jetons), qualité surprenante pour un modèle économique (85 % au MMLU), disponibilité immédiate en accès anticipé avec passage en version stable prévu rapidement.
Limites : raisonnement complexe inférieur de 20 points à Opus (61 % contre 84 % au test AIME), pas de personnalisation fine du modèle (Google ne propose pas cette option), compromis entre taille de contexte et latence (un million de jetons implique 2 à 5 secondes de délai initial), performances en code en retrait par rapport aux modèles haut de gamme.
Quelles alternatives ?
GPT-4o Mini pour rester dans l’écosystème OpenAI avec un bon équilibre qualité-prix. Qwen 3.5 Small pour une solution en code ouvert et ultra-légère, déployable en local. Claude Haiku pour un raisonnement supérieur (mais à un coût plus élevé).
Verdict final
Flash-Lite s’impose comme le modèle économique de référence en 2026. Si vous lancez une startup IA, c’est ici que vous prototypez. Si vous traitez 100 000 appels par jour, le passage de Mini à Flash-Lite représente une économie de plusieurs milliers de dollars par mois. Ce n’est pas un compromis au rabais — c’est un modèle qui surpasse ses concurrents directs sur trois axes simultanément : vitesse, prix et qualité. Rare en 2026.
FAQ
Flash-Lite restera-t-il longtemps en accès anticipé ?
Google prévoit un passage en version stable d’ici mai 2026. L’accès anticipé est déjà stable et l’API utilisable en production dès le lancement.
Peut-on charger un million de jetons de contexte en une seule requête ?
Oui, c’est natif. La latence de première réponse est alors de 2 à 3 secondes, après quoi le débit retrouve son rythme de 363 jetons par seconde.
Le modèle traite-t-il les images, la vidéo et les PDF ?
Oui pour les trois. Le traitement d’images, de vidéos et de PDF est natif. En revanche, le traitement audio n’est pas inclus (réservé à Gemini Pro).
Sources : Google AI Blog, Vertex AI, Google AI Studio. Maillage : Test GPT-5.4 d’OpenAI, Test Qwen 3.5 Small, Gemini 3.1 Pro : raisonnement avancé.



