Google lance Gemma 4 : des modèles ouverts qui rivalisent avec les géants

Quatre modèles, une ambition : démocratiser l’IA de pointe

Google DeepMind a publié le 2 avril 2026 Gemma 4, une nouvelle famille de quatre modèles de langage ouverts distribués sous licence Apache 2.0. Pas de plafond d’utilisateurs, pas de restrictions d’usage, liberté commerciale totale : Google joue la carte de l’ouverture maximale.

La gamme comprend quatre variantes. Deux modèles compacts — E2B (2,3 milliards de paramètres effectifs) et E4B (4,5 milliards) — conçus pour tourner directement sur smartphone. Un modèle Mixture-of-Experts de 26 milliards de paramètres avec seulement 4 milliards actifs par requête, optimisé pour l’efficacité. Et un modèle dense de 31 milliards, le vaisseau amiral de la flotte.

Des performances qui bousculent la hiérarchie

Les chiffres parlent d’eux-mêmes. Le modèle 31B instruction-tuned se hisse au 3e rang mondial sur le classement Arena AI avec un score Elo de 1452, surpassant des modèles vingt fois plus volumineux. Par rapport à Gemma 3, les progrès sont spectaculaires : le benchmark mathématique AIME 2026 passe de 20,8 % à 89,2 %, le LiveCodeBench (programmation) bondit de 29,1 % à 80 % et le GPQA (sciences) grimpe de 42,4 % à 84,3 %.

Ces résultats placent Gemma 4 au niveau des meilleurs modèles propriétaires sur les tâches de raisonnement, de code et de sciences — une première pour un modèle entièrement ouvert de cette taille.

Architecture : l’attention hybride comme clé

Gemma 4 introduit une architecture d’attention hybride. Les couches alternent entre une attention locale à fenêtre glissante (512 à 1024 tokens) et une attention globale sur l’intégralité du contexte. Cette approche permet de traiter des fenêtres de contexte allant jusqu’à 256 000 tokens tout en maîtrisant la consommation mémoire.

Les variantes E2B et E4B sont nativement multimodales : elles traitent images et audio, avec prise en charge des formats à ratio variable, reconnaissance de documents, lecture de graphiques et OCR manuscrit. De quoi alimenter des agents IA locaux capables de comprendre leur environnement visuel.

Un écosystème prêt dès le premier jour

Google a préparé le terrain. Gemma 4 est disponible dès le lancement sur Hugging Face Transformers, vLLM, llama.cpp, MLX pour Apple Silicon, LM Studio et même transformers.js pour l’inférence directement dans le navigateur. Android reçoit également une intégration native via AICore, permettant aux développeurs d’exploiter Gemma 4 directement sur les appareils Android sans connexion cloud.

Ce que ça change

Avec Gemma 4, Google envoie un message clair : l’open source n’est plus un compromis sur la performance. Pour les développeurs, les chercheurs et les entreprises qui ne veulent pas dépendre d’API propriétaires, c’est une option crédible et immédiatement déployable. La question n’est plus de savoir si les modèles ouverts peuvent rivaliser avec les géants — c’est déjà fait.