- ▸ Un modèle ouvert pour la musique en direct
- ▸ Deux tailles locales pour l'exécution hors cloud
- ▸ 71 000 heures d'instrumental annotées par MT3
- ▸ Latence : la trame passe de 2 s à 40 ms
Google publie Magenta RealTime 2, un modèle de génération musicale en temps réel à poids ouverts. Le modèle pèse 2,4 milliards de paramètres et accepte des contrôles MIDI, texte et audio. La latence de réaction descend à 40 ms par trame, selon la documentation officielle publiée le 4 juin 2026.
Points clés – Magenta RealTime 2 est un modèle à poids ouverts de 2,4 milliards de paramètres, capable de synthèse musicale temps réel pilotée par MIDI, texte et audio. – L’entraînement repose sur environ 71 000 heures de musique majoritairement instrumentale, avec des étiquettes MIDI inférées par le modèle de transcription MT3. – La taille de trame passe de 2 secondes à 40 ms par rapport à la génération précédente, avec une attention croisée en streaming pour une réactivité à l’échelle d’une trame. – Une déclinaison locale est annoncée en deux tailles, 760 millions et 220 millions de paramètres, pour exécution hors cloud.
Un modèle ouvert pour la musique en direct
Google annonce ce jeudi 4 juin 2026 la sortie de Magenta RealTime 2, présenté comme « Open & Local Live Music Models » sur le site Magenta. Le modèle principal totalise 2,4 milliards de paramètres et fonctionne en synthèse temps réel. Les poids sont ouverts, ce qui autorise un déploiement hors infrastructure Google.
Trois canaux de contrôle coexistent : MIDI, texte et audio. Cette combinaison vise les usages scéniques et studio, où un musicien peut piloter le modèle depuis un clavier, une consigne textuelle ou un flux audio entrant. Selon la documentation publiée par l’équipe Magenta, le système se positionne comme un instrument interactif, et non comme un générateur de morceaux différé.
Deux tailles locales pour l’exécution hors cloud
Outre le modèle principal, Google décline Magenta RealTime 2 en deux versions plus compactes destinées au local : 760 millions et 220 millions de paramètres. Ces deux tailles permettent un déploiement sur des machines moins dotées en mémoire vidéo. La page officielle mentionne ces deux variantes dans son tableau de spécifications, sans détailler les exigences matérielles précises.
L’approche « local-first » répond aux contraintes de latence et de confidentialité propres à la performance musicale. Un musicien sur scène ne peut tolérer l’aléa d’une connexion réseau pendant un set. La disponibilité des poids ouverts conditionne par ailleurs l’intégration future dans des stations audio-numériques tierces.
71 000 heures d’instrumental annotées par MT3
Le corpus d’entraînement totalise environ 71 000 heures de musique. Selon l’équipe Magenta, il s’agit majoritairement de musique instrumentale issue de banques de stock de sources variées. Les étiquettes MIDI ne sont pas humaines : elles ont été inférées par MT3, le modèle de transcription audio-vers-MIDI développé en interne. Cette chaîne automatisée réduit le coût d’annotation mais transfère au modèle les biais de MT3.
Aucun chiffre n’est communiqué sur la part vocale du corpus ni sur la répartition par genre. La documentation officielle se borne à mentionner la nature « majoritairement instrumentale » des données.
Latence : la trame passe de 2 s à 40 ms
C’est le saut technique mis en avant par Google. La taille de trame du modèle descend de 2 secondes, dans la génération précédente, à 40 millisecondes dans Magenta RealTime 2. Cette division par cinquante de la granularité temporelle conditionne la réactivité perçue par le musicien.
Pour exploiter ce gain, les signaux de contrôle sont injectés en conditionnement aligné sur la trame à chaque étape de génération. Le vecteur de contrôle est ensuite mappé sur un embedding multi-canal, puis injecté dans le décodeur temporel via une attention croisée en streaming. Résultat affiché : le modèle peut réagir à un changement de signal en une seule trame, soit environ 40 ms. L’équipe Magenta précise toutefois que « le temps d’inférence n’est pas la seule source de latence » et liste des facteurs empiriques additionnels dans sa documentation.
Ce que ça change pour les musiciens
L’arrivée d’un modèle de synthèse musicale en temps réel, à poids ouverts et déclinable en local, modifie le périmètre d’usage. Jusqu’ici, les modèles audio génératifs grand public s’orientaient vers la génération différée de morceaux. Magenta RealTime 2 cible l’instrument live : pilotage MIDI, latence à l’échelle de la trame, exécution hors cloud possible.
Pour les intégrateurs, la disponibilité des poids ouverre la porte à des plugins de stations audio-numériques tiers, sans dépendance à une API distante. Reste à mesurer la consommation matérielle réelle, non documentée publiquement à ce jour.
FAQ
Qu’est-ce que Magenta RealTime 2 et à quoi sert ce modèle ?
Magenta RealTime 2 est un modèle de génération musicale en temps réel publié par Google avec ses poids ouverts. Il totalise 2,4 milliards de paramètres et accepte trois canaux de contrôle : MIDI, texte et audio. Sa cible est l’usage live et studio comme instrument interactif, avec une réactivité à l’échelle de la trame.
Comment fonctionne le contrôle à basse latence ?
Les signaux de contrôle sont injectés comme conditionnement aligné sur la trame à chaque étape de génération. Un vecteur de contrôle est mappé sur un embedding multi-canal puis injecté dans le décodeur temporel via une attention croisée en streaming. Cette architecture autorise une réaction du modèle à toute variation de signal en une seule trame, soit environ 40 ms.
À suivre
Google n’a pas communiqué de calendrier pour des extensions vocales ni de chiffres de consommation matérielle. À surveiller : l’intégration dans les stations audio-numériques tierces et les premiers retours scéniques. Lire aussi : Anthropic et la course aux 1M de tokens.



