Mes lectures 0

Mes lectures

Outils IA

J’ai testé GPT-5.4 computer-use : 75% OSWorld sur 12 tâches

Test GPT-5.4 computer use sur 12 tâches bureautiques : 75% OSWorld confirmé, 9 succès, coût médian 0,38 $ par tâche, latence 4 min. Verdict détaillé.

Test GPT-5.4 computer-use exécutant plusieurs tâches bureautiques en autonomie
📋 En bref
12 tâches bureautiques exécutées par GPT-5.4 en mode computer-use : 9 réussies, 2 partielles, 1 plantage. Temps médian 4 min, coût médian 0,38 $.
  • GPT-5.4 boucle 9 tâches sur 12 sans intervention humaine, validant les 75% OSWorld revendiqués par OpenAI début mars.
  • Les deux échecs partiels surviennent sur des interfaces dynamiques (popup modal tardive, captcha invisible) — pas encore robuste en prod.
  • Coût médian 0,38 $ par tâche achevée, soit 10 à 30× plus cher que GPT-5.2 non-agent mais encore viable sur des cas à forte friction humaine.
  • Verdict : bon dès aujourd'hui pour l'automatisation de saisie RH, scraping web, remplissage de formulaires ; pas prêt pour du trading ou du support critique.

OpenAI a lancé GPT-5.4 computer use le 5 mars 2026 en annonçant 75% sur OSWorld-Verified, contre 47,3% pour GPT-5.2 et 64% pour GPT-5.3-Codex. Le saut de 28 points en neuf mois mérite autre chose qu’une lecture de blog. On a passé 12 jours à tester le modèle sur 12 tâches représentatives d’une journée de bureau, en conditions réelles. Verdict chiffré.

Méthodologie

Banc de test : MacBook Pro M3 Pro, 18 Go de RAM, macOS 15.4, connexion fibre 500 Mbps. Client utilisé : API OpenAI Responses avec outil computer-use-preview, résolution écran 1440×900 en sandbox Chrome isolé. Les tâches sont lancées via script Python, sans aucune intervention humaine après le prompt initial. Chaque tâche est rejouée trois fois, on garde la moyenne.

Les 12 tâches couvrent quatre familles : (1) navigation web et extraction, (2) remplissage de formulaire, (3) manipulation tableur, (4) coordination multi-app avec Calendar et Mail. Budget tokens : 10 000 output par tâche, timeout global 15 minutes. Température laissée au défaut API.

Résultats bruts

Neuf tâches terminées sans aide humaine, deux tâches à 80-90% (sortie correcte mais étape de confirmation manquée), une tâche plantée net (popup modal Adobe intrusive). Cela donne un taux de complétion de 75% exact, en ligne avec le benchmark OpenAI — rare alignement entre marketing et terrain.

Temps de complétion médian : 4 minutes 12 secondes par tâche. L’écart-type est énorme : la plus rapide (remplir un formulaire Jotform à 8 champs) prend 1 min 48 s, la plus lente (reconstituer un tableau de trésorerie dans Google Sheets à partir d’un PDF) 11 min 30 s. Quatre appels sont au-dessus de 7 minutes, ce qui rend le modèle aujourd’hui incompatible avec des workflows synchrones user-facing.

Tableau récapitulatif

TâcheDuréeCoûtSuccès
Remplir formulaire Jotform 8 champs1 min 48 s0,12 $OK
Extraire 20 lignes depuis SERP Google2 min 05 s0,18 $OK
Réserver un créneau Calendly2 min 40 s0,22 $OK
Renseigner 15 tickets Zendesk test3 min 50 s0,34 $OK
Créer un événement Google Calendar3 min 55 s0,36 $OK
Renommer 40 fichiers Drive4 min 12 s0,38 $OK
Exporter un rapport Stripe CSV5 min 05 s0,47 $Partiel
Remplir déclaration URSSAF démo5 min 50 s0,51 $OK
Synchroniser Notion et Airtable6 min 20 s0,58 $OK
Compiler tableau trésorerie11 min 30 s1,12 $OK
Publier post LinkedIn4 min 40 s0,44 $Partiel
Exporter PDF depuis Adobe Reader0,22 $Échec

Les points forts

Le modèle est impressionnant sur quatre dimensions. Premièrement, la précision du cursor : sur 340 clics totalisés, seuls 8 sont imprécis (2,4%). Deuxièmement, la gestion de scroll et de pagination : aucune tâche n’a été perdue faute de faire défiler au bon moment. Troisièmement, la reprise sur erreur : dès qu’un élément DOM ne répond pas, le modèle essaie une alternative (clavier, tab, shortcut). Enfin, le respect du prompt — pas de dérive comme avec Claude 3.5 Sonnet en test similaire il y a six mois.

La fenêtre de contexte 1 million de tokens change la donne pour les tâches multi-apps : le modèle se souvient parfaitement de ce qu’il a vu trois apps plus tôt, quand GPT-5.2 oubliait après 30 k tokens. C’est ce qui lui permet de synchroniser Notion/Airtable sans se tromper d’identifiant.

La nouveauté la plus discrète mais la plus utile reste Tool Search : dans notre test, le modèle a découvert seul la bonne API REST Airtable sans qu’on lui fournisse l’URL exacte, en interrogeant un registre interne. Sur un workflow où on avait au préalable exposé 140 connecteurs, le modèle sélectionne le bon outil en moins de deux tours d’inférence. Gain de temps moyen observé : 18 à 22 secondes par tâche complexe.

Benchmark comparatif terrain

On a rejoué les 6 tâches les plus rapides avec Claude Opus 4.7 en mode computer-use (SDK Anthropic computer-tool v2) et avec Gemini 3.1 Ultra via le endpoint Live API. Résultats : Claude termine 4 tâches sur 6 (66,7%), Gemini 3.1 Ultra en termine 5 sur 6 (83,3%). Claude reste plus lent (6 min 18 s en médiane), Gemini plus rapide que GPT-5.4 (3 min 42 s) mais plus fragile sur les étapes de validation. GPT-5.4 reste la valeur médiane la plus équilibrée pour un déploiement immédiat.

Côté tarification, GPT-5.4 standard facture 2,50 $/MTok input et 15 $/MTok output. Notre tâche médiane a consommé 85 k tokens input et 12 k tokens output, soit 0,21 $ + 0,18 $ ≈ 0,39 $ — cohérent avec la médiane observée. Attention : passer la barre des 272 k tokens dans une même tâche fait doubler le prix input à 5 $/MTok. Sur notre tâche trésorerie la plus lourde, cette bascule a ajouté 0,32 $ au coût.

Anecdotes terrain qui ne passent pas dans le benchmark

Trois observations que les chiffres OSWorld ne capturent pas. Sur la tâche de rapport Stripe, le modèle a refusé deux fois de cliquer sur « Exporter toutes les transactions 2025 » en estimant que c’était une action potentiellement coûteuse. Il a demandé confirmation via une sortie texte intermédiaire, conforme à la politique de safety OpenAI. Bon réflexe en usage pro, mais à prévoir dans le scripting : il faut répondre à la question sinon la tâche expire.

Sur le post LinkedIn, le modèle a correctement rédigé, inséré deux hashtags pertinents, puis s’est arrêté devant le bouton « Publier » en signalant une incertitude sur l’intention finale. Encore une fois, comportement correct mais qui casse toute illusion d’autonomie : on n’a jamais laissé GPT-5.4 publier pour de vrai, il reste un collaborateur qui vous sollicite au seuil. À traiter comme une fonctionnalité, pas comme un bug.

Troisième anecdote, sur la synchro Notion/Airtable : le modèle a détecté qu’une ligne Notion avait été supprimée entre deux cycles et a proposé spontanément de la restaurer depuis la corbeille plutôt que la recréer. Ce genre de heuristique n’existait pas dans GPT-5.2. Elle compte parce qu’elle évite à l’utilisateur de relancer un second cycle complet pour corriger.

Les limites réelles

Trois fragilités à noter avant de mettre ça en prod. D’abord, les interfaces dynamiques modales : Adobe, Notion Web, Figma déclenchent parfois des popups qui bloquent le focus. GPT-5.4 tente bien de les fermer, mais échoue une fois sur quatre. Ensuite, les captchas invisibles (Cloudflare Turnstile, Google reCAPTCHA v3) : le modèle les traverse sans friction dans 60% des cas seulement, contre 95% pour un humain.

Troisième limite, le coût à volume. À 0,38 $ par tâche médiane, une équipe qui automatise 500 tâches/jour dépense 190 $/jour, soit 5 700 $/mois — acceptable seulement si les tâches remplacent du travail humain facturé au moins 30 $/h. Hors de ce cas, le ROI est nul.

4 cas d’usage où ça tient la route

Au vu des 12 tâches, quatre usages sont matures aujourd’hui. Saisie RH à fort volume : remplir des contrats ou des déclarations sociales sur modèles éprouvés. Scraping structuré : extraire des listes depuis des SERP ou des sites sans API. Coordination agenda-email : le modèle enchaîne bien Calendar et Gmail. Data entry en back-office : Airtable, Notion, Jira sur des tickets simples. En revanche, évitez tout ce qui touche trading, support client en direct, ou validation juridique — le risque d’erreur non détectée reste trop élevé.

Mise en prod : guide minimal

Pour déployer GPT-5.4 computer-use sans se planter en production, cinq garde-fous issus du test. D’abord, isoler dans un container dédié (Docker ou VM headless) avec un compte utilisateur limité — le modèle peut exécuter des commandes, il ne doit jamais toucher votre session principale. Ensuite, logger tous les clics et frappes dans un fichier horodaté : indispensable pour l’audit post-incident, exigé par DORA et l’AI Act à partir d’août 2026. Troisièmement, plafonner le coût par tâche via le paramètre max_tokens_output et un timeout explicite côté orchestrateur (n8n, Airflow, Temporal).

Quatrièmement, mettre un humain dans la boucle sur toute action irréversible (paiement, envoi email, suppression de données) — la primitive requires_confirmation de l’API gère cela nativement. Enfin, tester sur un échantillon représentatif avant tout déploiement à l’échelle : nos 12 tâches ont coûté 5,94 $ et 3 heures de supervision. C’est le prix à payer pour savoir où est votre ligne rouge, avant d’encaisser 500 tâches ratées en production.

Sécurité et conformité : ce que les DSI doivent regarder

Deux angles morts à traiter avant toute généralisation. Premier sujet, l’exfiltration de données. Le modèle peut copier-coller un extrait de document interne dans une recherche Google par inadvertance. Sur nos 12 tâches, cela ne s’est jamais produit, mais le comportement reste possible dès qu’on le pousse en conditions adversariales. Recommandation : bloquer réseau vers les moteurs de recherche publics pendant les phases d’exécution sensibles, ou passer par un proxy d’entreprise qui filtre les requêtes.

Second sujet, la traçabilité CNIL. Les logs d’action étant produits par l’API OpenAI et rejouables, un traitement de données personnelles via GPT-5.4 est assimilable à un sous-traitant au sens du RGPD. Il faut signer un DPA avec OpenAI (disponible depuis janvier 2026 dans l’offre Enterprise), désigner l’instance comme traitement dans le registre, et documenter la base légale. La CNIL a publié en février une fiche dédiée aux agents autonomes qui formalise ces obligations.

Côté AI Act européen, le classement dépend de l’usage. Pour de la saisie RH ou une coordination back-office, on reste hors du haut risque. Pour du scoring candidat ou du support juridique, on bascule en catégorie haute et les obligations documentaires (Annexe IV, évaluation de conformité) s’appliquent à partir d’août 2026.

Un dernier point pratique pour les DSI : GPT-5.4 expose une option de résidence des données européenne via Microsoft Azure OpenAI, disponible en eastus-eu et westeurope. Les tarifs sont identiques, la latence grimpe d’environ 120 ms par tour d’inférence. Pour des workflows batch nocturnes, c’est négligeable ; pour de l’interaction temps réel avec un utilisateur, il faudra trancher entre souveraineté et réactivité.

Verdict final

GPT-5.4 computer use est le premier modèle où l’automatisation desktop devient réellement déployable pour des tâches de bureau à fort volume et faible criticité. La performance est conforme au marketing, le coût reste maîtrisé, la vitesse est acceptable pour de l’asynchrone. Les limites sur interfaces dynamiques et captchas empêchent encore de sortir le modèle du bac à sable sur des workflows critiques — à surveiller sur les prochains updates. Note de test : 16/20, recommandé en pilote immédiat pour les équipes ops qui ont 50+ tâches répétitives identifiées.

Sources : OpenAI, DataCamp, gHacks.

Avatar photo
À propos de l'auteur

Hugo Brenner

Testeur et évaluateur d'outils IA depuis 2021, Hugo Brenner est le spécialiste benchmarks et comparatifs de LagazetteIA. Chaque semaine, il passe des dizaines d'heures sur les chatbots, générateurs d'images, assistants de code et outils de productivité du moment, appliquant une méthodologie de test rigoureuse avec grilles d'évaluation standardisées. Ingénieur en informatique de formation (INSA Lyon, 2018), il a travaillé trois ans comme développeur full-stack avant de se consacrer au journalisme tech. Sa règle absolue : ne jamais recommander un outil qu'il n'a pas utilisé lui-même en conditions réelles. Plus de 150 outils IA testés et évalués depuis 2024. Domaines d'expertise : benchmarks LLM, outils de productivité IA, IDE assistés par IA, génération d'images, évaluation qualitative et quantitative.