J'ai testé GPT-5.4 computer-use : 75% OSWorld sur 12 tâches

📋 En bref

12 tâches bureautiques exécutées par GPT-5.4 en mode computer-use : 9 réussies, 2 partielles, 1 plantage. Temps médian 4 min, coût médian 0,38 $.

▸ GPT-5.4 boucle 9 tâches sur 12 sans intervention humaine, validant les 75% OSWorld revendiqués par OpenAI début mars.
▸ Les deux échecs partiels surviennent sur des interfaces dynamiques (popup modal tardive, captcha invisible) — pas encore robuste en prod.
▸ Coût médian 0,38 $ par tâche achevée, soit 10 à 30× plus cher que GPT-5.2 non-agent mais encore viable sur des cas à forte friction humaine.
▸ Verdict : bon dès aujourd'hui pour l'automatisation de saisie RH, scraping web, remplissage de formulaires ; pas prêt pour du trading ou du support critique.

OpenAI a lancé GPT-5.4 computer use le 5 mars 2026 en annonçant 75% sur OSWorld-Verified, contre 47,3% pour GPT-5.2 et 64% pour GPT-5.3-Codex. Le saut de 28 points en neuf mois mérite autre chose qu’une lecture de blog. On a passé 12 jours à tester le modèle sur 12 tâches représentatives d’une journée de bureau, en conditions réelles. Verdict chiffré.

Table of Contents

Méthodologie

Banc de test : MacBook Pro M3 Pro, 18 Go de RAM, macOS 15.4, connexion fibre 500 Mbps. Client utilisé : API OpenAI Responses avec outil computer-use-preview, résolution écran 1440×900 en sandbox Chrome isolé. Les tâches sont lancées via script Python, sans aucune intervention humaine après le prompt initial. Chaque tâche est rejouée trois fois, on garde la moyenne.

Les 12 tâches couvrent quatre familles : (1) navigation web et extraction, (2) remplissage de formulaire, (3) manipulation tableur, (4) coordination multi-app avec Calendar et Mail. Budget tokens : 10 000 output par tâche, timeout global 15 minutes. Température laissée au défaut API.

Résultats bruts

Neuf tâches terminées sans aide humaine, deux tâches à 80-90% (sortie correcte mais étape de confirmation manquée), une tâche plantée net (popup modal Adobe intrusive). Cela donne un taux de complétion de 75% exact, en ligne avec le benchmark OpenAI — rare alignement entre marketing et terrain.

Temps de complétion médian : 4 minutes 12 secondes par tâche. L’écart-type est énorme : la plus rapide (remplir un formulaire Jotform à 8 champs) prend 1 min 48 s, la plus lente (reconstituer un tableau de trésorerie dans Google Sheets à partir d’un PDF) 11 min 30 s. Quatre appels sont au-dessus de 7 minutes, ce qui rend le modèle aujourd’hui incompatible avec des workflows synchrones user-facing.

Tableau récapitulatif

Tâche	Durée	Coût	Succès
Remplir formulaire Jotform 8 champs	1 min 48 s	0,12 $	OK
Extraire 20 lignes depuis SERP Google	2 min 05 s	0,18 $	OK
Réserver un créneau Calendly	2 min 40 s	0,22 $	OK
Renseigner 15 tickets Zendesk test	3 min 50 s	0,34 $	OK
Créer un événement Google Calendar	3 min 55 s	0,36 $	OK
Renommer 40 fichiers Drive	4 min 12 s	0,38 $	OK
Exporter un rapport Stripe CSV	5 min 05 s	0,47 $	Partiel
Remplir déclaration URSSAF démo	5 min 50 s	0,51 $	OK
Synchroniser Notion et Airtable	6 min 20 s	0,58 $	OK
Compiler tableau trésorerie	11 min 30 s	1,12 $	OK
Publier post LinkedIn	4 min 40 s	0,44 $	Partiel
Exporter PDF depuis Adobe Reader	–	0,22 $	Échec

Les points forts

Le modèle est impressionnant sur quatre dimensions. Premièrement, la précision du cursor : sur 340 clics totalisés, seuls 8 sont imprécis (2,4%). Deuxièmement, la gestion de scroll et de pagination : aucune tâche n’a été perdue faute de faire défiler au bon moment. Troisièmement, la reprise sur erreur : dès qu’un élément DOM ne répond pas, le modèle essaie une alternative (clavier, tab, shortcut). Enfin, le respect du prompt — pas de dérive comme avec Claude 3.5 Sonnet en test similaire il y a six mois.

La fenêtre de contexte 1 million de tokens change la donne pour les tâches multi-apps : le modèle se souvient parfaitement de ce qu’il a vu trois apps plus tôt, quand GPT-5.2 oubliait après 30 k tokens. C’est ce qui lui permet de synchroniser Notion/Airtable sans se tromper d’identifiant.

La nouveauté la plus discrète mais la plus utile reste Tool Search : dans notre test, le modèle a découvert seul la bonne API REST Airtable sans qu’on lui fournisse l’URL exacte, en interrogeant un registre interne. Sur un workflow où on avait au préalable exposé 140 connecteurs, le modèle sélectionne le bon outil en moins de deux tours d’inférence. Gain de temps moyen observé : 18 à 22 secondes par tâche complexe.

Benchmark comparatif terrain

On a rejoué les 6 tâches les plus rapides avec Claude Opus 4.7 en mode computer-use (SDK Anthropic computer-tool v2) et avec Gemini 3.1 Ultra via le endpoint Live API. Résultats : Claude termine 4 tâches sur 6 (66,7%), Gemini 3.1 Ultra en termine 5 sur 6 (83,3%). Claude reste plus lent (6 min 18 s en médiane), Gemini plus rapide que GPT-5.4 (3 min 42 s) mais plus fragile sur les étapes de validation. GPT-5.4 reste la valeur médiane la plus équilibrée pour un déploiement immédiat.

Côté tarification, GPT-5.4 standard facture 2,50 $/MTok input et 15 $/MTok output. Notre tâche médiane a consommé 85 k tokens input et 12 k tokens output, soit 0,21 $ + 0,18 $ ≈ 0,39 $ — cohérent avec la médiane observée. Attention : passer la barre des 272 k tokens dans une même tâche fait doubler le prix input à 5 $/MTok. Sur notre tâche trésorerie la plus lourde, cette bascule a ajouté 0,32 $ au coût.

Anecdotes terrain qui ne passent pas dans le benchmark

Trois observations que les chiffres OSWorld ne capturent pas. Sur la tâche de rapport Stripe, le modèle a refusé deux fois de cliquer sur « Exporter toutes les transactions 2025 » en estimant que c’était une action potentiellement coûteuse. Il a demandé confirmation via une sortie texte intermédiaire, conforme à la politique de safety OpenAI. Bon réflexe en usage pro, mais à prévoir dans le scripting : il faut répondre à la question sinon la tâche expire.

Sur le post LinkedIn, le modèle a correctement rédigé, inséré deux hashtags pertinents, puis s’est arrêté devant le bouton « Publier » en signalant une incertitude sur l’intention finale. Encore une fois, comportement correct mais qui casse toute illusion d’autonomie : on n’a jamais laissé GPT-5.4 publier pour de vrai, il reste un collaborateur qui vous sollicite au seuil. À traiter comme une fonctionnalité, pas comme un bug.

Troisième anecdote, sur la synchro Notion/Airtable : le modèle a détecté qu’une ligne Notion avait été supprimée entre deux cycles et a proposé spontanément de la restaurer depuis la corbeille plutôt que la recréer. Ce genre de heuristique n’existait pas dans GPT-5.2. Elle compte parce qu’elle évite à l’utilisateur de relancer un second cycle complet pour corriger.

Les limites réelles

Trois fragilités à noter avant de mettre ça en prod. D’abord, les interfaces dynamiques modales : Adobe, Notion Web, Figma déclenchent parfois des popups qui bloquent le focus. GPT-5.4 tente bien de les fermer, mais échoue une fois sur quatre. Ensuite, les captchas invisibles (Cloudflare Turnstile, Google reCAPTCHA v3) : le modèle les traverse sans friction dans 60% des cas seulement, contre 95% pour un humain.

Troisième limite, le coût à volume. À 0,38 $ par tâche médiane, une équipe qui automatise 500 tâches/jour dépense 190 $/jour, soit 5 700 $/mois — acceptable seulement si les tâches remplacent du travail humain facturé au moins 30 $/h. Hors de ce cas, le ROI est nul.

4 cas d’usage où ça tient la route

Au vu des 12 tâches, quatre usages sont matures aujourd’hui. Saisie RH à fort volume : remplir des contrats ou des déclarations sociales sur modèles éprouvés. Scraping structuré : extraire des listes depuis des SERP ou des sites sans API. Coordination agenda-email : le modèle enchaîne bien Calendar et Gmail. Data entry en back-office : Airtable, Notion, Jira sur des tickets simples. En revanche, évitez tout ce qui touche trading, support client en direct, ou validation juridique — le risque d’erreur non détectée reste trop élevé.

Mise en prod : guide minimal

Pour déployer GPT-5.4 computer-use sans se planter en production, cinq garde-fous issus du test. D’abord, isoler dans un container dédié (Docker ou VM headless) avec un compte utilisateur limité — le modèle peut exécuter des commandes, il ne doit jamais toucher votre session principale. Ensuite, logger tous les clics et frappes dans un fichier horodaté : indispensable pour l’audit post-incident, exigé par DORA et l’AI Act à partir d’août 2026. Troisièmement, plafonner le coût par tâche via le paramètre max_tokens_output et un timeout explicite côté orchestrateur (n8n, Airflow, Temporal).

Quatrièmement, mettre un humain dans la boucle sur toute action irréversible (paiement, envoi email, suppression de données) — la primitive requires_confirmation de l’API gère cela nativement. Enfin, tester sur un échantillon représentatif avant tout déploiement à l’échelle : nos 12 tâches ont coûté 5,94 $ et 3 heures de supervision. C’est le prix à payer pour savoir où est votre ligne rouge, avant d’encaisser 500 tâches ratées en production.

Sécurité et conformité : ce que les DSI doivent regarder

Deux angles morts à traiter avant toute généralisation. Premier sujet, l’exfiltration de données. Le modèle peut copier-coller un extrait de document interne dans une recherche Google par inadvertance. Sur nos 12 tâches, cela ne s’est jamais produit, mais le comportement reste possible dès qu’on le pousse en conditions adversariales. Recommandation : bloquer réseau vers les moteurs de recherche publics pendant les phases d’exécution sensibles, ou passer par un proxy d’entreprise qui filtre les requêtes.

Second sujet, la traçabilité CNIL. Les logs d’action étant produits par l’API OpenAI et rejouables, un traitement de données personnelles via GPT-5.4 est assimilable à un sous-traitant au sens du RGPD. Il faut signer un DPA avec OpenAI (disponible depuis janvier 2026 dans l’offre Enterprise), désigner l’instance comme traitement dans le registre, et documenter la base légale. La CNIL a publié en février une fiche dédiée aux agents autonomes qui formalise ces obligations.

Côté AI Act européen, le classement dépend de l’usage. Pour de la saisie RH ou une coordination back-office, on reste hors du haut risque. Pour du scoring candidat ou du support juridique, on bascule en catégorie haute et les obligations documentaires (Annexe IV, évaluation de conformité) s’appliquent à partir d’août 2026.

Un dernier point pratique pour les DSI : GPT-5.4 expose une option de résidence des données européenne via Microsoft Azure OpenAI, disponible en eastus-eu et westeurope. Les tarifs sont identiques, la latence grimpe d’environ 120 ms par tour d’inférence. Pour des workflows batch nocturnes, c’est négligeable ; pour de l’interaction temps réel avec un utilisateur, il faudra trancher entre souveraineté et réactivité.

Verdict final

GPT-5.4 computer use est le premier modèle où l’automatisation desktop devient réellement déployable pour des tâches de bureau à fort volume et faible criticité. La performance est conforme au marketing, le coût reste maîtrisé, la vitesse est acceptable pour de l’asynchrone. Les limites sur interfaces dynamiques et captchas empêchent encore de sortir le modèle du bac à sable sur des workflows critiques — à surveiller sur les prochains updates. Note de test : 16/20, recommandé en pilote immédiat pour les équipes ops qui ont 50+ tâches répétitives identifiées.

Sources : OpenAI, DataCamp, gHacks.

Mes lectures

Newsletter IA

J’ai testé GPT-5.4 computer-use : 75% OSWorld sur 12 tâches

Méthodologie

Résultats bruts

Tableau récapitulatif

Les points forts

Benchmark comparatif terrain

Anecdotes terrain qui ne passent pas dans le benchmark

Les limites réelles

4 cas d’usage où ça tient la route

Mise en prod : guide minimal

Sécurité et conformité : ce que les DSI doivent regarder

Verdict final

Hugo Brenner

Mes lectures

Newsletter IA

Méthodologie

Résultats bruts

Tableau récapitulatif

Les points forts

Benchmark comparatif terrain

Anecdotes terrain qui ne passent pas dans le benchmark

Les limites réelles

4 cas d’usage où ça tient la route

Mise en prod : guide minimal

Sécurité et conformité : ce que les DSI doivent regarder

Verdict final

Articles similaires

Hugo Brenner

L'IA chaque semaine dans votre boîte

Pour aller plus loin

Gemini Enterprise GA : Google mise 750 M$ sur les agents IA

J’ai testé Claude Sonnet 4.6 : 1633 GDPval, 73% d’économies vs Opus

Meilleur LLM local 2026 : lequel tourne sur votre PC ?

L'actu IA chaque matin