TechTurboQuant : Google réduit le coût des LLM de 50 %
Google DeepMind présente TurboQuant, une quantification post-entraînement qui réduit de 50 % la taille des LLM avec moins de 1 % de perte. Applicable à Gemini et aux modèles open source, la technique divise par deux les coûts d'inférence.
