- ▸ Quand l'assistant rend un fichier que personne ne relit
- ▸ La fiabilité, prochain front de l'évaluation
- ▸ D'où vient cette focalisation sur la délégation
- ▸ Ce que mesure DELEGATE-52, en six chiffres
Confier l’édition d’un long fichier à un assistant IA suppose qu’il restera fidèle au texte d’origine. Une étude parue sur arXiv le 17 avril 2026 mesure l’inverse : sur 19 systèmes évalués dans 52 domaines professionnels, les meilleurs introduisent en moyenne un quart de contenu altéré en fin de workflow. Le benchmark DELEGATE-52 nomme un angle mort que les évaluations standards ne voient pas.
Points clés 1. DELEGATE-52, publié en avril 2026, mesure la fiabilité des grands modèles de langage sur des tâches déléguées impliquant l’édition profonde de documents dans 52 domaines professionnels. 2. Sur 19 modèles évalués, les meilleurs corrompent en moyenne 25 % du contenu en fin de workflow long ; les autres modèles échouent plus sévèrement encore. 3. Les erreurs sont rares mais lourdes : altérations silencieuses qui passent les filtres de relecture rapide et ne déclenchent aucune alarme côté outillage. 4. L’usage d’outils agentiques n’améliore pas les performances ; la dégradation s’aggrave avec la taille du document, la longueur d’interaction et la présence de fichiers distracteurs. 5. La délégation longue comme paradigme d’usage des modèles de langage bute sur un plafond de fiabilité que ni la taille des modèles, ni l’outillage agentique ne lèvent à ce jour.
Quand l’assistant rend un fichier que personne ne relit
Reconstruisons un cas type à partir des protocoles décrits dans l’étude. Une cellule juridique demande à un assistant IA de mettre à jour un dossier de 80 pages : références croisées, terminologie harmonisée, ajout d’un avenant. Le modèle s’exécute, livre un fichier d’apparence soignée. Personne ne relit ligne à ligne. Trois semaines plus tard, lors d’une signature, un alinéa essentiel a disparu. Aucune trace dans les logs, aucun signal d’incertitude. Le document a été altéré en cours de route, silencieusement. Cette mécanique — sparse mais sévère, indétectable sans relecture intégrale — est précisément ce que DELEGATE-52 cherche à objectiver. Le benchmark simule des workflows de délégation longue à un modèle de langage reproduisant ce contexte exact : assistant chargé d’éditer en profondeur, sur la durée, sans supervision continue. Le décor est moins celui d’un échec spectaculaire que celui d’une érosion lente.
La fiabilité, prochain front de l’évaluation
L’argument central de l’étude est limpide. Les benchmarks dominants — MMLU, HumanEval, GPQA — mesurent une compétence ponctuelle sur des tâches courtes. Or, l’usage réel se déplace vers la délégation : édition de documents longs, navigation dans des arborescences de fichiers, modifications successives. C’est sur ce terrain, peu testé, que les modèles révèlent un défaut structurel : ils introduisent des erreurs rares mais lourdes, qui passent inaperçues. La fiabilité, et non la performance brute, devient l’enjeu central. DELEGATE-52 propose une première métrique grand public de ce risque, et déplace la grille de lecture des évaluations.
D’où vient cette focalisation sur la délégation
Le récit dominant des grands modèles de langage, depuis 2022, a été celui de la performance. Génération à génération, les modèles ont escaladé les benchmarks de raisonnement, de code, de connaissances générales. Cette dynamique a structuré la perception publique : un meilleur LLM est un LLM qui répond mieux à une question. Le déplacement vers la notion de « modèle qui exécute une tâche » — autrement dit, le passage du chatbot à l’agent — a profondément modifié la donne.
Les premiers signaux de ce basculement remontent à 2024, lorsque les éditeurs ont commencé à intégrer aux modèles des capacités d’usage d’outils : exécution de code, navigation web, manipulation de fichiers. La promesse était d’étendre l’utilité au-delà du simple échange textuel. Cursor pour le code, les assistants intégrés à Microsoft 365 ou Google Workspace pour la bureautique, des dizaines d’outils verticaux pour la recherche, le juridique, la finance : tous ont misé sur le même axe, la délégation. Le marché a rebaptisé la promesse « agent » et y a investi.
À mesure que ces produits ont gagné des utilisateurs, des retours de terrain ont commencé à émerger. Des oublis discrets dans des comptes-rendus longs, des tableaux dont une cellule changeait de signe, des références bibliographiques erronées injectées dans des manuscrits. Ces signaux faibles n’avaient pas, jusqu’ici, fait l’objet d’une mesure systématique. Ils circulaient dans des fils de discussion, des post-mortems internes, sans agrégation publique exploitable.
C’est dans ce contexte que la communauté de l’évaluation a commencé à formaliser le problème. Le terme de « silent failure » — échec silencieux — s’est imposé pour désigner ces erreurs qu’aucun avertissement ne signale. À la différence des hallucinations classiques des LLM, où le modèle invente une information manifestement fausse, les corruptions de délégation sont locales : un mot remplacé, un chiffre modifié, une clause supprimée. Elles passent les filtres de relecture rapide et ne déclenchent aucune alarme côté outillage. Leur surface est minuscule ; leur conséquence, parfois disproportionnée.
DELEGATE-52, publié sur arXiv le 17 avril 2026, vient s’ancrer dans cette lignée. Plutôt que d’évaluer les modèles sur leur capacité à répondre, il les évalue sur leur capacité à ne pas dégrader. Le glissement épistémologique est notable : on passe de la mesure d’une réussite à celle d’une intégrité. Cette logique est familière dans d’autres champs — sécurité aérienne, qualité logicielle, audit financier — où l’on mesure d’abord la non-dégradation avant de mesurer la performance. Les modèles de langage rejoignent ce cadre.
Ce que mesure DELEGATE-52, en six chiffres
Le protocole repose sur un panel de 19 modèles, évalués sur des tâches couvrant 52 domaines professionnels distincts. Chaque tâche simule un workflow de délégation long, exigeant des éditions profondes de documents : ajouts, suppressions, reformulations, mises à jour de références. La mesure principale est la part du contenu corrompu en fin de workflow, identifiée par comparaison avec une vérité-terrain établie en amont.
Pour les modèles dits frontières — c’est-à-dire les meilleurs systèmes commerciaux du moment — la moyenne s’établit à 25 % de contenu corrompu en sortie. D’autres modèles évalués échouent plus sévèrement encore, avec des taux supérieurs. Aucun système du panel n’atteint un niveau de fiabilité compatible avec une délégation sans supervision.
| Indicateur DELEGATE-52 | Valeur |
|---|---|
| Modèles évalués | 19 |
| Domaines professionnels couverts | 52 |
| Corruption moyenne — modèles frontières (fin de workflow) | 25 % |
| Corruption — autres modèles | sévérité supérieure |
| Effet de l’agentique sur la performance | non significatif |
| Facteurs aggravants identifiés | taille du document, longueur d’interaction, fichiers distracteurs |
Trois enseignements méthodologiques se dégagent. Premièrement, la nature des erreurs : sparse mais sévère. Les modèles n’échouent pas en permanence — ils dégradent ponctuellement, mais le cumul de ces dégradations sur un workflow long produit un taux de corruption élevé. Deuxièmement, l’invisibilité : les altérations ne s’accompagnent pas de signaux d’incertitude. Le document est rendu comme s’il était propre. Troisièmement, l’inefficacité de l’outillage : l’agentique — l’idée que doter un modèle d’outils externes améliore sa fiabilité — ne déplace pas la métrique sur ce benchmark.
L’axe « taille du document » est particulièrement instructif. Plus le document à éditer est long, plus la sévérité des dégradations augmente. Même logique sur la durée d’interaction : un échange étiré dans le temps amplifie le risque. Enfin, la présence de fichiers distracteurs — des documents annexes que le modèle peut consulter — pèse également sur la métrique. Trois leviers que les usages réels accentuent presque par construction : un cabinet juridique ne traite pas des contrats d’une page, et un workflow de recherche se nourrit de plusieurs sources.
Le panel de 52 domaines professionnels mérite d’être souligné. L’étude couvre des verticales aussi diverses que le droit, la santé, la finance, la recherche académique, l’ingénierie, les ressources humaines, l’éducation, le journalisme, la traduction. Cette amplitude évite l’écueil d’une mesure spécialisée sur une niche peu représentative. Elle expose en revanche une variabilité possible des taux de corruption selon les domaines, qui mériterait d’être désagrégée dans des publications ultérieures.
La mesure de référence, dite vérité-terrain, conditionne la fiabilité de la métrique elle-même. Les auteurs ont vraisemblablement comparé chaque livrable à une cible attendue, segment par segment, pour identifier les écarts. Toute comparaison de ce type implique une définition opérationnelle de ce qui constitue un écart « significatif ». Sur ce point, le caractère « sparse mais sévère » des erreurs suggère un seuil de gravité plutôt qu’une comptabilité égalitaire des modifications.
L’étude ne propose pas de remède définitif. Elle pose un diagnostic et établit une base d’évaluation. En cela, elle s’inscrit dans une tradition d’évaluations négatives : on documente d’abord la limite, on outille ensuite la mitigation. Cette posture, prudente, contraste avec la communication des éditeurs qui privilégient les benchmarks de performance favorables. Le rééquilibrage est utile.
Ce qu’un taux de 25 % change concrètement sur le terrain
Vingt-cinq pour cent de contenu corrompu n’est pas un taux abstrait. Sur un contrat de 40 pages, cela représente potentiellement dix pages d’altérations diffuses. Sur une étude de marché de 80 sections, vingt sections affectées. Sur un manuscrit de recherche, une fraction des références ou des résultats numériques modifiée. La nature « sparse mais sévère » des erreurs aggrave le diagnostic : il ne s’agit pas d’une dégradation uniforme et identifiable, mais de poches d’erreurs disséminées que seule une relecture intégrale permet de débusquer.
Pour les fonctions support qui ont misé sur la délégation comme levier de productivité, le constat oblige à reconsidérer le calcul économique. Si chaque livrable d’un assistant doit faire l’objet d’une relecture exhaustive, le gain de temps se réduit considérablement. Dans certains cas — documents juridiques, comptes-rendus médicaux, livrables financiers — la relecture est de toute façon obligatoire pour des raisons réglementaires ou contractuelles, et le surcoût de la relecture absorbe le bénéfice de la délégation. Le retour sur investissement affiché en début de programme se révise à la baisse.
Pour les éditeurs de produits intégrant des modèles de langage, l’enjeu est double. D’une part, la confiance utilisateur : un produit qui altère silencieusement les fichiers qu’il manipule s’expose à un retour de bâton lorsque les premières dégradations sont découvertes en aval. D’autre part, la promesse marketing : la communication des dernières années a souvent présenté les assistants comme « capables de prendre en charge » des tâches longues. DELEGATE-52 fournit une métrique opposable à ces messages, et un point d’appui pour des comparatifs de fiabilité entre modèles plus exigeants.
Pour les directions techniques qui industrialisent l’usage des modèles en interne, le benchmark redonne du poids à des pratiques de validation que la vitesse d’adoption avait pu reléguer : diff systématique avant/après, suivi des hashes de section, relecture humaine en boucle, restriction de la délégation à des tâches courtes et bornées. Autant de garde-fous qui paraissaient sur-ingénierés tant que la promesse de fiabilité semblait tenue. Avec un quart du contenu altéré en fin de workflow long, ils redeviennent un standard prudentiel, et un argument de gouvernance recevable face aux directions métiers.
Enfin, pour les régulateurs et auditeurs, DELEGATE-52 fournit un point de rattachement concret. Là où les débats sur la fiabilité des modèles tournaient souvent autour de cas anecdotiques, il devient possible de référer à une métrique mesurée sur un panel large. La conformité — déjà sensible dans les secteurs juridique, financier, santé — y gagne une grammaire commune. Cette grammaire ne suffit pas. Encore faut-il qu’elle soit reprise dans des cadres normatifs ou des cahiers des charges sectoriels. Le cas de l’audit financier est éclairant : depuis l’introduction de modèles de langage dans les workflows de revue, les firmes du secteur ont multiplié les notes internes sur la traçabilité des modifications. DELEGATE-52 leur offre un référentiel chiffré sur lequel arrimer ces notes.
Ce que les détracteurs de l’étude pourraient lui opposer
Toute évaluation prête à la contestation. DELEGATE-52 n’échappe pas à cette règle, et plusieurs lignes de critique méritent d’être anticipées pour éclairer le débat.
La première porte sur la représentativité du protocole. Simuler une délégation longue sur 52 domaines professionnels constitue un effort large, mais reste une simulation. Les usages réels embarquent un contexte conversationnel, des consignes intermédiaires, des corrections en cours de route que le benchmark ne reproduit pas nécessairement à l’identique. Les défenseurs des modèles évalués pourraient soutenir que dans un usage supervisé, où l’utilisateur reprend la main régulièrement, le taux de corruption serait inférieur à celui mesuré.
La deuxième critique concerne la cible mouvante. Les modèles évoluent rapidement ; un benchmark publié à un instant T est par construction périssable. Les versions postérieures à la publication n’ont pas été testées et pourraient afficher des résultats différents. Cet argument est valide pour tout benchmark, mais il invite à ne pas figer une lecture définitive. À l’inverse, le fait que 19 modèles partagent la même tendance — y compris les meilleurs — renforce l’idée qu’il s’agit d’une caractéristique structurelle du paradigme, et non d’un défaut local et transitoire.
La troisième critique vise le périmètre de la « corruption ». Que mesure exactement le pourcentage ? Une erreur sémantique mineure pèse-t-elle le même poids qu’une suppression de clause critique ? L’étude positionne la mesure comme indicative et signale que les erreurs sont « sparse mais sévère », ce qui suggère un traitement granulaire. Mais le débat sur la pondération qualitative reste ouvert et appelle des extensions méthodologiques que d’autres équipes pourront porter.
Certains pourraient enfin objecter que la délégation longue n’est pas le bon paradigme d’usage et que le test, en mesurant un cas limite, surestime la gravité. À cet argument, l’étude répond implicitement : la délégation longue est précisément le cas que les éditeurs poussent commercialement. La mesurer n’est pas un cas limite, c’est un cas attendu.
Reste un dernier point : la transparence du protocole. Plus les éditeurs et les laboratoires concurrents pourront reproduire la mesure sur leurs propres modèles, plus le débat sortira du registre de la conviction pour entrer dans celui de la comparaison. Sur ce front, la trajectoire d’autres benchmarks — rejoués, contestés, raffinés — fournit un horizon plausible. C’est dans la confrontation que la métrique gagnera, ou perdra, son autorité.
Vers une refonte des promesses commerciales
À court terme, DELEGATE-52 va probablement se diffuser dans le vocabulaire des évaluations. La pression sera double : sur les éditeurs, pour intégrer la métrique à leurs reportings publics ; sur les acheteurs, pour l’exiger dans les appels d’offres. Le glissement déjà observé d’une concurrence sur la performance vers une concurrence sur la fiabilité des LLM s’en trouve accéléré.
À moyen terme, deux trajectoires se dessinent. La première, technique : faire baisser le taux de corruption par des architectures plus robustes — mécanismes de vérification interne, journalisation des modifications, modes restreints à la délégation courte. La seconde, organisationnelle : reconnaître que la délégation longue sans supervision n’est pas un terrain mûr, et concevoir des produits qui rendent la supervision humaine inévitable. La question qui restera ouverte est celle de l’équilibre. Combien d’autonomie l’utilisateur acceptera-t-il d’abandonner pour combien de fiabilité gagnée ?
FAQ
Quelle est l’ampleur de la dégradation provoquée par les modèles de langage en délégation ?
L’étude DELEGATE-52, publiée le 17 avril 2026, montre que les meilleurs modèles dits frontières corrompent en moyenne 25 % du contenu d’un document en fin de workflow long. D’autres modèles, moins performants, échouent plus sévèrement encore. La dégradation est qualifiée de « sparse mais sévère » : ponctuelle, mais significative en cumul sur un livrable entier.
Les outils agentiques améliorent-ils la fiabilité des assistants délégués ?
Non. L’étude indique explicitement que l’usage d’outils agentiques n’améliore pas les performances mesurées sur DELEGATE-52. La promesse fréquemment associée à l’agentique — doter le modèle d’outils externes pour gagner en fiabilité — ne se concrétise pas sur ce terrain spécifique, malgré l’engouement marketing autour du sujet.
Quels facteurs aggravent la corruption des fichiers ?
Trois leviers sont identifiés par les auteurs de l’étude : la taille du document à éditer, la longueur de l’interaction et la présence de fichiers distracteurs dans le contexte. Plus chacun de ces paramètres augmente, plus la sévérité de la dégradation s’accroît, ce qui rend la délégation longue particulièrement exposée.
Comment limiter les risques en attendant des modèles plus fiables ?
Les pratiques recommandables relèvent du bon sens prudentiel : restreindre la délégation à des tâches courtes et bornées, instaurer un diff systématique avant/après, journaliser les modifications, conserver une relecture humaine sur tout livrable critique, et éviter de surcharger le contexte avec des fichiers non strictement nécessaires.
Sources
- Étude LLMs Corrupt Your Documents When You Delegate, arXiv, 17 avril 2026 — https://arxiv.org/abs/2604.15597.



