Google DeepMind présente TurboQuant, une méthode de quantification post-entraînement qui réduit de moitié la taille des modèles de langage sans perte significative de performance. Applicable à Gemini et aux modèles open source, cette technique promet de diviser par deux les coûts d’inférence en production.
Qu’est-ce que la quantification et pourquoi elle compte
La quantification consiste à réduire la précision numérique des poids d’un réseau de neurones. Un modèle entraîné en virgule flottante 16 bits (FP16) peut être converti en 8 bits (INT8) ou même 4 bits (INT4), diminuant proportionnellement la mémoire requise et accélérant les calculs. L’enjeu est de maintenir la qualité des réponses malgré cette compression.
Jusqu’ici, les méthodes les plus courantes — GPTQ, AWQ, GGUF — offraient un bon compromis taille/performance pour les modèles de 7 à 70 milliards de paramètres. Mais elles perdaient en efficacité sur les architectures Mixture-of-Experts (MoE) et les modèles dépassant 100 milliards de paramètres, précisément ceux déployés en production par Google, OpenAI et Anthropic.
Comment fonctionne TurboQuant
TurboQuant introduit trois innovations majeures par rapport aux méthodes existantes. Premièrement, un calibrage par couche adaptatif qui analyse la sensibilité de chaque couche du modèle avant de choisir la précision optimale (4, 6 ou 8 bits) individuellement. Deuxièmement, un mécanisme de compensation résiduelle qui redistribue l’erreur de quantification entre les couches voisines, limitant l’accumulation d’approximations. Troisièmement, un support natif des architectures MoE, permettant de quantifier différemment les experts actifs et inactifs.
Selon l’article publié sur arXiv, TurboQuant atteint une réduction de 50 % de la taille du modèle avec une dégradation inférieure à 1 % sur les benchmarks MMLU, HumanEval et GSM8K. Sur Gemini 1.5 Pro, la méthode préserve 99,2 % du score original tout en divisant par deux l’empreinte mémoire.
Impact concret sur les coûts d’inférence
Le coût d’inférence d’un LLM dépend directement de la mémoire GPU mobilisée. Un modèle de 70 milliards de paramètres en FP16 nécessite environ 140 Go de VRAM, soit deux GPU A100 80 Go ou un H100. Après quantification TurboQuant en 8 bits mixte, le même modèle tient sur un seul GPU A100, réduisant le coût unitaire par requête de 40 à 55 % selon les benchmarks internes de Google.
Pour les entreprises qui déploient des modèles en production, cette économie se traduit directement en réduction de la facture cloud. D’après les estimations de SemiAnalysis, le marché de l’inférence IA représentera 48 milliards de dollars en 2026. Une réduction de 50 % de la taille des modèles pourrait économiser entre 10 et 15 milliards au secteur chaque année.
Comparaison avec les méthodes concurrentes
TurboQuant n’est pas la seule approche en lice. Meta a publié SpinQuant, qui utilise une rotation des poids pour minimiser les outliers avant quantification. Qualcomm pousse AIMET, optimisé pour l’inférence mobile. NVIDIA propose TensorRT-LLM avec quantification FP8 native sur les GPU Blackwell. Chaque méthode excelle dans un contexte particulier : TurboQuant se distingue sur les très grands modèles serveur, tandis que SpinQuant vise les modèles de taille moyenne et AIMET le edge computing.
L’avantage de TurboQuant réside dans son intégration directe avec l’infrastructure Google Cloud. Les utilisateurs de Vertex AI pourront appliquer la quantification en un clic sur n’importe quel modèle hébergé, sans modifier le code d’inférence. Cette facilité d’accès pourrait accélérer l’adoption bien au-delà du seul écosystème Google.
FAQ
TurboQuant est-il open source ?
Google n’a pas encore annoncé la publication du code source complet. L’article de recherche est accessible sur arXiv, et une intégration dans Vertex AI est prévue. Une version open source pour les modèles Gemma est envisagée.
Quelle perte de qualité attendre avec TurboQuant ?
Moins de 1 % de dégradation sur les principaux benchmarks (MMLU, HumanEval, GSM8K) pour une réduction de 50 % de la taille. La perte varie selon l’architecture du modèle et la tâche évaluée.
Peut-on appliquer TurboQuant aux modèles open source ?
La méthode est conçue pour être générique. Google a testé TurboQuant sur Llama, Mistral et Gemma en plus de Gemini, avec des résultats comparables sur chaque architecture.



