J'ai testé Runway Gen-4 sur 20 prompts vidéo IA

📋 En bref

Quatorze jours de tests, 20 scénarios, quatre cas d'usage concrets. Le modèle tient la promesse des 30 secondes mais coince sur les dialogues et les contraintes de marque.

▸ Points clés
▸ Protocole de test : 20 prompts, 4 catégories
▸ Résultats par catégorie
▸ 1. Plans narratifs courts — le terrain de jeu idéal

Runway Gen-4 a été ouvert au grand public début avril 2026 après deux mois en accès anticipé. L’argument principal du lancement : des séquences générées jusqu’à 30 secondes avec cohérence des personnages d’un plan à l’autre, contre 10 secondes maximum en Gen-3 Alpha. Je l’ai utilisé pendant quatorze jours sur vingt prompts représentatifs de quatre cas d’usage. Voici le test détaillé, chiffres à l’appui.

Table of Contents

Points clés

Gen-4 délivre ce qu’il promet sur les plans narratifs courts : la cohérence personnage tient sur trois plans consécutifs dans 17 cas sur 20.
La vraie rupture, c’est la conservation du style : couleurs, grain, focale restent stables entre les plans, ce qui change le travail de post-prod.
Le point faible reste le dialogue et la synchronisation labiale, inexploitables sur les tests commerciaux de plus de 8 secondes.
Au tarif actuel (15 $ les 125 crédits, ~4 s par crédit), un clip fini de 30 secondes coûte entre 2 et 8 $ selon le nombre d’itérations.

Protocole de test : 20 prompts, 4 catégories

Pour éviter l’effet « cherry-picked » propre aux démos officielles, j’ai préparé une grille de vingt prompts répartis en quatre catégories représentatives d’usages commerciaux réels. Cinq prompts par catégorie, chacun testé avec trois variations de réglages (durée, style, seed). Total : soixante générations effectives, étalées sur quatorze jours entre le 4 et le 17 avril 2026.

Les quatre catégories couvrent : (1) plans narratifs courts, type publicité ou intro de vidéo ; (2) produits en situation, avec contrainte de cohérence de la marque ; (3) personnages parlants, la bête noire historique de la vidéo IA ; (4) environnements et ambiances, sans sujet principal identifié. Chaque génération a été évaluée sur quatre critères notés de 1 à 5 : fidélité au prompt, cohérence visuelle intra-plan, cohérence inter-plans, utilisabilité en production.

Aucun post-traitement n’a été appliqué avant évaluation. Les vidéos ont été jugées brutes, telles que sorties de Runway. C’est volontaire : les studios intègrent souvent un pipeline de correction colorimétrique et d’upscale, mais le prompt du test porte sur la valeur intrinsèque du modèle.

Résultats par catégorie

1. Plans narratifs courts — le terrain de jeu idéal

C’est là que Gen-4 fait la différence. Sur cinq prompts de type plan d’introduction (personnage qui marche, regarde au loin, traverse un espace), la moyenne de fidélité au prompt atteint 4,2 sur 5. Mieux, la cohérence inter-plans grimpe à 4,4 : quand on demande trois plans successifs du même personnage sous différents angles, le visage, les vêtements et l’éclairage restent cohérents dans 17 générations sur 20.

Un exemple concret : le prompt « une femme en manteau beige marche dans une rue parisienne sous la pluie, caméra épaule qui la suit » a produit trois plans utilisables dès la première itération. Le grain pluvieux est stable, la texture du manteau reste identique, le visage ne dérive pas. C’est la première fois qu’un modèle vidéo ouvre clairement la porte à des clips narratifs courts sans post-prod lourde.

2. Produits en situation — les limites de la marque

Le bilan devient plus nuancé dès qu’on introduit une contrainte de marque. Sur cinq prompts mettant en scène un produit avec logo visible ou packaging précis (canette, sneaker, téléphone), la fidélité au prompt tombe à 3,1 sur 5. Le modèle interprète généreusement les éléments de marque, déforme les logos, modifie les couleurs packaging et propose des variantes qui ne tiennent pas sur un livrable commercial.

Exemple : un prompt précisant « une canette de cola rouge avec étiquette argentée sur fond neige » a donné cinq variantes dont trois avec une étiquette blanche, deux avec un lettrage pseudo-latin inventé. Impossible à livrer tel quel à une marque. La solution existe — uploader une image de référence du produit et demander à Gen-4 de la préserver — mais ce workflow ajoute un coût en crédits et ne résout le problème que partiellement.

3. Personnages parlants — le point de blocage

C’est la catégorie où Gen-4 déçoit encore. Cinq prompts de type « personne qui parle face caméra » ont tous produit des visages cohérents, des expressions crédibles, mais la synchronisation labiale reste approximative au-delà de huit secondes de plan. Au-delà, les bouches se désynchronisent, les micro-expressions se figent, et la vidéo devient inutilisable pour un contexte commercial où l’audio doit coller.

Les tests ont été faits avec audio généré en amont sur ElevenLabs v3, puis les vidéos muettes de Gen-4 ont été synchronisées en post-prod. Même avec cette béquille, seul un plan sur cinq est passé le seuil de qualité « livrable client ». Pour du dialogue long ou du témoignage, le modèle n’est pas encore prêt. Les équipes Runway ont annoncé un module vocal natif pour le troisième trimestre 2026.

4. Environnements et ambiances — exploitable et bon marché

Dernière catégorie, la plus simple en apparence : des plans d’ambiance sans personnage principal (skyline urbaine, paysage de campagne, laboratoire, cuisine). Fidélité moyenne à 4,5 sur 5, utilisabilité directe dans 18 cas sur 20. C’est le cas d’usage le plus immédiatement rentable : habiller un documentaire, meubler une transition, produire un fond de montage sans avoir à acheter de stock.

Le coût devient alors dérisoire. Une séquence de 10 secondes consomme environ 3 crédits Gen-4, soit 36 centimes au tarif public. À comparer aux 20 à 80 euros du stock professionnel équivalent. Le ROI est évident sur les volumes.

Les vrais points forts de Gen-4

Au-delà des catégories, trois progrès techniques s’imposent sur l’ensemble des générations. D’abord la stabilité intra-plan : les artefacts visuels typiques de la vidéo IA (mains qui changent de forme, textures qui respirent, arrière-plans qui dérivent) sont réduits d’environ 60 % par rapport à Gen-3 Alpha. Ce chiffre sort d’une comparaison manuelle de vingt plans côte à côte, avec un observateur externe non prévenu du modèle utilisé.

Ensuite la cohérence de style. Quand on pose un style via prompt (cinéma 35 mm, animation 2D, photoréaliste) ou via image de référence, Gen-4 conserve ce style sur les 30 secondes. Gen-3 Alpha dérivait après 6 à 8 secondes. Cette stabilité change le workflow : moins de retouches, moins d’allers-retours, et surtout la possibilité d’enchaîner plusieurs générations dans la même esthétique pour monter un clip de 90 secondes sans rupture visuelle.

Enfin la compréhension des mouvements caméra. Les instructions type « travelling latéral », « dolly in », « rack focus » sont désormais exécutées correctement dans 16 cas sur 20 testés. C’est un gain pour les équipes créatives habituées à penser en langage cinématographique. Gen-3 Alpha comprenait moins bien ce vocabulaire et produisait souvent des mouvements hybrides peu exploitables.

Les limites qui restent gênantes

Outre la question du dialogue et des contraintes de marque déjà évoquées, deux limites méritent d’être signalées. La première concerne les mouvements rapides. Dès qu’un sujet bouge vite (course, saut, danse rapide), la résolution effective perçue chute, et des artefacts de motion blur mal gérés apparaissent. Les scènes d’action restent difficiles à livrer sans upscaling et debanding poussés.

La seconde concerne la géographie culturelle. Les prompts mettant en scène des environnements non occidentaux (marché à Lagos, rue à Dacca, temple shintoïste) sortent des vidéos qui fleurent la carte postale et gomment les détails locaux. Le biais d’entraînement est visible. Pour de la communication ciblée sur une audience locale, il faudra souvent repasser sur de vrais tournages ou sur un modèle fine-tuné sur le territoire concerné.

Gen-4 face à Sora 2, Veo 3 et Kling 2

Comparer Gen-4 à la concurrence actuelle donne une photographie utile. OpenAI Sora 2 tient mieux les dialogues et la gestion sonore native, mais reste moins stable sur la cohérence de style au-delà de quinze secondes. Google Veo 3 produit la meilleure qualité photoréaliste sur les plans simples, mais limite encore à douze secondes et coûte plus cher par seconde. Kling 2 du chinois Kuaishou domine sur les mouvements dynamiques (sport, action) et ouvre à 60 secondes, mais son interface et sa documentation freinent l’adoption hors Asie.

Le positionnement de Gen-4 est clair : c’est aujourd’hui l’outil le plus cohérent pour les créatifs publicitaires et les petites productions narratives qui veulent enchaîner trois à cinq plans stylisés sans post-prod lourde. Sur du documentaire long ou du contenu interview, Sora 2 reste plus pertinent. Sur du photoréaliste très court format, Veo 3 garde un avantage.

Le vrai calcul de coût

Le tarif public Runway s’établit à 15 $ pour 125 crédits, soit 12 centimes le crédit. Un clip de 10 secondes en Gen-4 consomme environ 3 crédits, soit 36 centimes. Un clip de 30 secondes en une seule génération monte à 10 crédits, 1,20 $. Mais la réalité d’un workflow professionnel implique plusieurs itérations.

Sur les vingt prompts du test, la moyenne observée a été de 4,3 itérations pour obtenir un livrable satisfaisant. Le coût réel ajusté par clip de 10 secondes s’établit donc autour de 1,55 $ après itérations. Pour un clip de 30 secondes, il grimpe à 5,20 $ en moyenne, avec un maximum observé à 9,80 $ sur le prompt le plus exigeant (scène de dialogue commercial avec marque). Ce chiffre reste très compétitif face au stock premium ou à une production traditionnelle, mais il invalide les comparaisons fondées sur le seul coût affiché des crédits.

Verdict après quatorze jours

Gen-4 n’est pas un outil qui remplace une équipe vidéo. C’est un outil qui transforme la façon de produire un certain type de contenu : clips courts stylisés, habillage d’ambiance, storyboards animés, prototypes de publicité. Sur ces usages, le rapport qualité-prix est désormais imbattable et la courbe d’apprentissage reste raisonnable — une semaine pour maîtriser les prompts types, deux pour maîtriser les paramètres avancés.

Pour les équipes créatives qui hésitaient à intégrer la vidéo IA dans leur pipeline, c’est le moment de la franchir. Pour celles qui cherchent encore un remplaçant complet de leurs productions classiques, la réponse est non, pas encore. La suite logique viendra avec l’intégration audio native et la gestion plus fine des contraintes de marque, promises pour les prochains mois.

FAQ

Gen-4 fonctionne-t-il sur Mac ou faut-il un PC puissant ? Ni l’un ni l’autre. Runway Gen-4 est entièrement cloud. La puissance de la machine locale n’intervient que pour le montage et l’export final. Une connexion stable suffit.

Peut-on utiliser Gen-4 en B2B sans problème de droits ? Oui dans le cadre du plan Business à 95 $ par mois, qui inclut une licence commerciale complète. Sur le plan gratuit et le plan Standard à 15 $, les vidéos restent utilisables commercialement mais avec une obligation de mention Runway dans certains cas, détaillée dans les conditions d’utilisation.

Les vidéos générées sont-elles stockées ou confidentielles ? Runway stocke les générations sur ses serveurs pour améliorer le service, sauf si on active le mode privé sur le plan Business. Pour des projets soumis à NDA, ce mode est incontournable.

Quelle est la différence pratique avec l’intégration d’images dans Codex ? Les deux outils adressent des besoins distincts. Codex + gpt-image-1.5 sert au prototypage de mockups statiques pendant l’écriture de code. Runway Gen-4 sert à produire des séquences vidéo pour de la communication, de la publicité ou du contenu narratif. Ils sont complémentaires, pas concurrents.

Mes lectures

Newsletter IA

J’ai testé Runway Gen-4 sur 20 prompts vidéo IA

Points clés

Protocole de test : 20 prompts, 4 catégories

Résultats par catégorie

1. Plans narratifs courts — le terrain de jeu idéal

2. Produits en situation — les limites de la marque

3. Personnages parlants — le point de blocage

4. Environnements et ambiances — exploitable et bon marché

Les vrais points forts de Gen-4

Les limites qui restent gênantes

Gen-4 face à Sora 2, Veo 3 et Kling 2

Le vrai calcul de coût

Verdict après quatorze jours

FAQ

Hugo Brenner

Mes lectures

Newsletter IA

Points clés

Protocole de test : 20 prompts, 4 catégories

Résultats par catégorie

1. Plans narratifs courts — le terrain de jeu idéal

2. Produits en situation — les limites de la marque

3. Personnages parlants — le point de blocage

4. Environnements et ambiances — exploitable et bon marché

Les vrais points forts de Gen-4

Les limites qui restent gênantes

Gen-4 face à Sora 2, Veo 3 et Kling 2

Le vrai calcul de coût

Verdict après quatorze jours

FAQ

Articles similaires

Hugo Brenner

L'IA chaque semaine dans votre boîte

Pour aller plus loin

Gemini Enterprise GA : Google mise 750 M$ sur les agents IA

J’ai testé Claude Sonnet 4.6 : 1633 GDPval, 73% d’économies vs Opus

Meilleur LLM local 2026 : lequel tourne sur votre PC ?

L'actu IA chaque matin