Mistral AI vient de déployer Voxtral TTS, son premier modèle de synthèse vocale open-source. Léger (4 milliards de paramètres), multilingue (9 langues) et capable de cloner des voix en 2–3 secondes, ce modèle pose une question stratégique majeure aux leaders propriétaires du marché, notamment ElevenLabs. Les poids sont disponibles gratuitement sur Hugging Face ; l’API coûte 0,016 €/1k caractères. Une rupture claire dans l’économie de la synthèse vocale.

Essentiels

  • Modèle : Voxtral TTS, 4B paramètres, open-weights (CC BY NC 4.0)
  • Langues : Anglais, français, allemand, espagnol, néerlandais, portugais, italien, hindi, arabe
  • Clonage vocal : 2–3 secondes d’audio suffisent, préserve accent et intonation
  • Latence : 70ms pour 10s d’échantillon + 500 caractères
  • Coût API : $0,016/1k caractères (tarif ultra-compétitif)
  • Avantage : 62,8 % de préférence vs ElevenLabs Flash v2.5 en tests humains

Un défi direct à ElevenLabs

Le 26 mars 2026, Mistral AI a officialisé le lancement de Voxtral TTS.

Questions fréquentes

Voxtral TTS remplace-t-il ElevenLabs ?

Sur la qualité, les tests le suggèrent. Sur le marché, ElevenLabs domine par inertie.

Comment accéder à Voxtral TTS ?

API (\$0.016/1k chars) ou poids gratuits sur Hugging Face.