TurboQuant : Google réduit le coût des LLM de 50 %

Google DeepMind présente TurboQuant, une méthode de quantification post-entraînement qui réduit de moitié la taille des modèles de langage sans perte significative de performance. Applicable à Gemini et aux modèles open source, cette technique promet de diviser par deux les coûts d’inférence en production.

Table of Contents

Qu’est-ce que la quantification et pourquoi elle compte

La quantification consiste à réduire la précision numérique des poids d’un réseau de neurones. Un modèle entraîné en virgule flottante 16 bits (FP16) peut être converti en 8 bits (INT8) ou même 4 bits (INT4), diminuant proportionnellement la mémoire requise et accélérant les calculs. L’enjeu est de maintenir la qualité des réponses malgré cette compression.

Jusqu’ici, les méthodes les plus courantes — GPTQ, AWQ, GGUF — offraient un bon compromis taille/performance pour les modèles de 7 à 70 milliards de paramètres. Mais elles perdaient en efficacité sur les architectures Mixture-of-Experts (MoE) et les modèles dépassant 100 milliards de paramètres, précisément ceux déployés en production par Google, OpenAI et Anthropic.

Comment fonctionne TurboQuant

TurboQuant introduit trois innovations majeures par rapport aux méthodes existantes. Premièrement, un calibrage par couche adaptatif qui analyse la sensibilité de chaque couche du modèle avant de choisir la précision optimale (4, 6 ou 8 bits) individuellement. Deuxièmement, un mécanisme de compensation résiduelle qui redistribue l’erreur de quantification entre les couches voisines, limitant l’accumulation d’approximations. Troisièmement, un support natif des architectures MoE, permettant de quantifier différemment les experts actifs et inactifs.

Selon l’article publié sur arXiv, TurboQuant atteint une réduction de 50 % de la taille du modèle avec une dégradation inférieure à 1 % sur les benchmarks MMLU, HumanEval et GSM8K. Sur Gemini 1.5 Pro, la méthode préserve 99,2 % du score original tout en divisant par deux l’empreinte mémoire.

Impact concret sur les coûts d’inférence

Le coût d’inférence d’un LLM dépend directement de la mémoire GPU mobilisée. Un modèle de 70 milliards de paramètres en FP16 nécessite environ 140 Go de VRAM, soit deux GPU A100 80 Go ou un H100. Après quantification TurboQuant en 8 bits mixte, le même modèle tient sur un seul GPU A100, réduisant le coût unitaire par requête de 40 à 55 % selon les benchmarks internes de Google.

Pour les entreprises qui déploient des modèles en production, cette économie se traduit directement en réduction de la facture cloud. D’après les estimations de SemiAnalysis, le marché de l’inférence IA représentera 48 milliards de dollars en 2026. Une réduction de 50 % de la taille des modèles pourrait économiser entre 10 et 15 milliards au secteur chaque année.

Comparaison avec les méthodes concurrentes

TurboQuant n’est pas la seule approche en lice. Meta a publié SpinQuant, qui utilise une rotation des poids pour minimiser les outliers avant quantification. Qualcomm pousse AIMET, optimisé pour l’inférence mobile. NVIDIA propose TensorRT-LLM avec quantification FP8 native sur les GPU Blackwell. Chaque méthode excelle dans un contexte particulier : TurboQuant se distingue sur les très grands modèles serveur, tandis que SpinQuant vise les modèles de taille moyenne et AIMET le edge computing.

L’avantage de TurboQuant réside dans son intégration directe avec l’infrastructure Google Cloud. Les utilisateurs de Vertex AI pourront appliquer la quantification en un clic sur n’importe quel modèle hébergé, sans modifier le code d’inférence. Cette facilité d’accès pourrait accélérer l’adoption bien au-delà du seul écosystème Google.

FAQ

TurboQuant est-il open source ?

Google n’a pas encore annoncé la publication du code source complet. L’article de recherche est accessible sur arXiv, et une intégration dans Vertex AI est prévue. Une version open source pour les modèles Gemma est envisagée.

Quelle perte de qualité attendre avec TurboQuant ?

Moins de 1 % de dégradation sur les principaux benchmarks (MMLU, HumanEval, GSM8K) pour une réduction de 50 % de la taille. La perte varie selon l’architecture du modèle et la tâche évaluée.

Peut-on appliquer TurboQuant aux modèles open source ?

La méthode est conçue pour être générique. Google a testé TurboQuant sur Llama, Mistral et Gemma en plus de Gemini, avec des résultats comparables sur chaque architecture.

Qu’est-ce que la quantification et pourquoi elle compte

Comment fonctionne TurboQuant

Impact concret sur les coûts d’inférence

Comparaison avec les méthodes concurrentes

FAQ

TurboQuant est-il open source ?

Quelle perte de qualité attendre avec TurboQuant ?

Peut-on appliquer TurboQuant aux modèles open source ?

Astrid Carvalho

Articles connexes

NVIDIA DLSS 5 et le Neural Rendering : prouesse technique ou trahison artistique ?

Apple et Google officialisent leur alliance : Siri 2.0 sera propulsé par Gemini

AMI Labs de Yann LeCun lève 1 milliard de dollars pour construire les « world models »

Recevez l'actu IA chaque matin