Mistral lance Voxtral, modèle TTS open-source face à ElevenLabs

Mistral AI vient de déployer Voxtral TTS, son premier modèle de synthèse vocale open-source. Léger (4 milliards de paramètres), multilingue (9 langues) et capable de cloner des voix en 2–3 secondes, ce modèle pose une question stratégique majeure aux leaders propriétaires du marché, notamment ElevenLabs. Les poids sont disponibles gratuitement sur Hugging Face ; l’API coûte 0,016 €/1k caractères. Une rupture claire dans l’économie de la synthèse vocale.

Table of Contents

Essentiels

Modèle : Voxtral TTS, 4B paramètres, open-weights (CC BY NC 4.0)
Langues : Anglais, français, allemand, espagnol, néerlandais, portugais, italien, hindi, arabe
Clonage vocal : 2–3 secondes d’audio suffisent, préserve accent et intonation
Latence : 70ms pour 10s d’échantillon + 500 caractères
Coût API : $0,016/1k caractères (tarif ultra-compétitif)
Avantage : 62,8 % de préférence vs ElevenLabs Flash v2.5 en tests humains

Un défi direct à ElevenLabs

Le 26 mars 2026, Mistral AI a officialisé le lancement de Voxtral TTS.

Questions fréquentes

Voxtral TTS remplace-t-il ElevenLabs ?

Sur la qualité, les tests le suggèrent. Sur le marché, ElevenLabs domine par inertie.

Comment accéder à Voxtral TTS ?

API (\$0.016/1k chars) ou poids gratuits sur Hugging Face.

Essentiels

Un défi direct à ElevenLabs

Questions fréquentes

Voxtral TTS remplace-t-il ElevenLabs ?

Comment accéder à Voxtral TTS ?

MegTech

Articles connexes

IA et cybersécurité : les nouvelles menaces et défenses qui redéfinissent 2026

Pourquoi les modèles IA open source gagnent du terrain face aux solutions propriétaires en 2026

Les data centers sous-marins : la solution au problème énergétique de l’IA ?

Recevez l'actu IA chaque matin