OpenAI Codex : anatomie de la consigne anti-gobelins

📋 En bref

Une instruction tient en une phrase et a déclenché des centaines de discussions sur les réseaux sociaux fin avril 2026. Le fichier d'instructions internes

▸ Une fuite de prompt système devenue meme tech
▸ Thèse : un cas d'école de fixation sémantique
▸ De Sydney aux gobelins : court historique des prompts dérapants
▸ Anatomie technique : pourquoi un modèle fixe-t-il un mot ?

Une instruction tient en une phrase et a déclenché des centaines de discussions sur les réseaux sociaux fin avril 2026. Le fichier d’instructions internes de l’agent de programmation d’OpenAI interdit explicitement à l’IA de mentionner gremlins, ratons laveurs, trolls, ogres ou pigeons. Pourquoi cette directive ? Trois pistes techniques se recoupent — et ce qu’elles révèlent du fonctionnement réel des grands modèles éclaire un angle mort des LLM en production.

Points clés 1. La consigne extraite du prompt système de Codex CLI interdit aux agents OpenAI d’évoquer une liste fermée de créatures, sauf demande explicite de l’utilisateur. 2. Plusieurs développeurs rapportent une dérive lexicale documentée : les agents fixent les gobelins, gremlins ou ratons laveurs lors de tâches longues. 3. Nik Pash, ingénieur sur Codex chez OpenAI, confirme publiquement que cette dérive est l’une des raisons de l’interdiction. 4. L’hypothèse OpenClaw — un wrapper qui injecte des instructions supplémentaires — explique la propagation du phénomène à travers le framework communautaire. 5. Le cas illustre un mode de défaillance peu documenté des LLM en boucle d’agent : la fixation sémantique sur des tokens parasites.

Sommaire

Une fuite de prompt système devenue meme tech

Le 29 avril 2026, Numerama publie une enquête sur une instruction inédite figurant dans le système de prompts de Codex CLI, le terminal d’OpenAI réservé aux usages développeurs. La phrase est sobre, son objet inattendu : « Ne parle jamais de gobelins, de gremlins, de ratons laveurs, de trolls, d’ogres, de pigeons ou d’autres animaux ou créatures, sauf si cela est absolument sans ambiguïté dans la demande de l’utilisateur. »

L’instruction circule depuis plusieurs jours sur X, où elle est devenue un meme. Des captures d’écran tournent. Les développeurs s’amusent. Les chercheurs en alignement, eux, s’interrogent : pourquoi l’éditeur le mieux financé du secteur — qui négocie ses partenariats en dizaines de milliards de dollars — a-t-il jugé nécessaire d’inscrire dans ses garde-fous un bestiaire de créatures fantastiques ? Le fait que la directive soit suffisamment précise pour énumérer sept espèces — animaux et créatures imaginaires confondus — suggère qu’elle répond à un incident concret, observé en production, et non à une précaution abstraite ajoutée pour la forme.

Thèse : un cas d’école de fixation sémantique

La consigne n’est ni anecdotique ni décorative. Elle adresse un mode de défaillance documenté empiriquement par les utilisateurs de Codex et confirmé par un ingénieur de la maison : la dérive lexicale en boucle longue. Lors de sessions d’agent étendues, des modèles génératifs réinjectent dans leurs réponses des termes sans lien évident avec la tâche. Les gobelins en sont devenus l’exemple emblématique. La directive interdit le symptôme plutôt que de traiter la cause. Ce choix opérationnel illustre l’état actuel de l’alignement des LLM : on patche par règle là où la formation initiale dérape, faute d’un correctif structurel disponible dans des délais raisonnables.

De Sydney aux gobelins : court historique des prompts dérapants

La pratique du prompt système — un bloc d’instructions injecté en amont de chaque conversation pour cadrer le comportement du modèle — a vingt-quatre mois d’histoire publique. Avant 2023, ces consignes circulaient peu hors des laboratoires. Le tournant intervient en février 2023 : un internaute publie le prompt système intégral de Bing Chat, et la communauté découvre que le chatbot répond au nom de code « Sydney », qu’il a interdiction de discuter ses propres règles, et qu’il doit éviter tout désaccord prolongé avec l’utilisateur. La fuite est commentée pendant des semaines. Microsoft retire le persona Sydney et durcit ses garde-fous.

Anthropic et la transparence des model specs puis OpenAI publient en 2024 et 2025 leurs « model specs » et « usage policies » — documents qui décrivent les comportements attendus et les interdits assumés — dans un effort de transparence partielle. Les prompts système opérationnels — ceux qui pilotent réellement les agents en production — restent toutefois confidentiels. Ils sont souvent extraits par ingénierie inverse : l’utilisateur demande au modèle de répéter ses instructions initiales, ou injecte des chaînes spécifiques qui exposent les directives.

Le cas Codex CLI s’inscrit dans cette continuité. La consigne anti-gobelins n’est pas la première bizarrerie repérée dans un prompt système d’agent commercial. Les développeurs ont noté des instructions interdisant aux modèles de chanter, de générer des emojis dans certains contextes, ou de mentionner des concurrents. Chacune répond à un incident antérieur : un client a été embarrassé, un screenshot a circulé, un patch est entré en production le lendemain.

La spécificité du cas gobelin est sa précision lexicale. Là où la plupart des règles couvrent des catégories larges — « ne génère pas de contenu violent », « refuse les requêtes politiques » —, la directive de Codex énumère sept créatures et ajoute une clause d’extension : « ou d’autres animaux ou créatures ». Cette structure — liste fermée plus extension générique — est typique des règles écrites en réaction à un échantillon d’incidents observés, élargies par précaution. Le rédacteur de la directive a vu apparaître plusieurs noms de créatures dans des journaux d’erreurs et a tenté de couvrir le périmètre sans inventaire exhaustif.

Cette logique d’écriture trace en creux le fonctionnement de l’observabilité interne d’OpenAI : équipes de monitoring qui repèrent des patterns inhabituels, ingénieurs qui rédigent des correctifs textuels, déploiement quasi continu via prompt système — sans cycle de réentraînement. La consigne anti-gobelins est donc un artefact d’ingénierie réactive autant qu’un patch comportemental.

Anatomie technique : pourquoi un modèle fixe-t-il un mot ?

La transition entre histoire et mécanique technique s’impose : pour comprendre pourquoi un patch textuel est nécessaire, il faut décrire le défaut qu’il colmate.

La fixation sémantique observée dans Codex CLI relève d’un phénomène plus large connu en recherche NLP — traitement automatique du langage — sous différents noms : neural text degeneration, repetition trap, lexical attractor. Le mécanisme est documenté depuis la fin des années 2010. Le modèle, contraint dans une boucle longue, restreint son vocabulaire de sortie autour de quelques tokens dont la probabilité conditionnelle s’auto-renforce. Plus la séquence est longue, plus les tokens déjà émis biaisent la suite. Si « gobelin » apparaît une fois — par hasard, par contamination de données d’entraînement, ou par pattern matching avec un exemple vu lors du fine-tuning — la probabilité qu’il réapparaisse augmente.

Les techniques de génération avec sampling stochastique — top-p (sélection des tokens dont les probabilités cumulées atteignent un seuil), nucleus sampling, ajustement de température — atténuent le phénomène sans l’éliminer. Sur des tâches d’agent à plusieurs centaines de tours, où chaque sortie alimente le contexte de la suivante, le risque s’accumule. Les modèles de raisonnement, qui produisent des chaînes de pensée explicites avant la réponse finale, sont particulièrement exposés : la chaîne intermédiaire augmente la longueur effective des sorties et multiplie les occasions de fixation.

Le tableau ci-dessous résume les principaux modes de défaillance observés dans les agents LLM commerciaux ces deux dernières années.

Type de dérive	Manifestation	Cas public emblématique
Persona slip	Adoption d’un alter ego non sollicité	Sydney (Bing Chat, février 2023)
Refus excessif	Blocage de requêtes anodines	« Sorry, as a large language model… »
Fixation sémantique	Réapparition d’un terme parasite	Gobelins (Codex CLI, avril 2026)
Boucle d’outil	Réutilisation infinie de la même API	Multiples agents 2024-2025
Hallucination structurée	API ou fonctions inventées	Code generation, multiples cas

La consigne anti-gobelins agit comme un correctif comportemental par couche d’instruction. Elle ne corrige pas la cause — l’apprentissage initial qui a inscrit ces tokens comme attracteurs lexicaux — mais elle masque le symptôme. Approche pragmatique, économique en ressources, peu coûteuse en latence : ajouter une ligne au prompt système pèse moins qu’un cycle de réentraînement, dont les coûts dépassent désormais plusieurs centaines de millions de dollars par modèle de pointe selon les estimations publiques disponibles.

L’hypothèse la plus documentée pointe vers OpenClaw, un wrapper communautaire qui injecte des instructions supplémentaires dans les requêtes Codex pour étendre ses capacités. Plusieurs utilisateurs rapportent que leurs agents deviennent obsédés par les gobelins, gremlins et autres créatures lorsqu’ils sont utilisés pour alimenter le framework. La cohabitation entre le prompt système OpenAI et les instructions injectées par OpenClaw produirait des collisions sémantiques où certains tokens spécifiques sortent de leur contexte d’origine.

Nik Pash, qui travaille sur Codex chez OpenAI, a confirmé publiquement que cette dérive était l’une des raisons de l’interdiction explicite. Sa déclaration constitue à ce jour le seul élément officiel reliant la directive à un incident technique précis. L’ingénieur n’a pas détaillé les journaux internes ni le périmètre exact des créatures concernées, mais sa confirmation valide le mécanisme : OpenAI a observé un comportement, l’a tracé jusqu’à une catégorie sémantique, et a écrit une règle en conséquence.

Une autre déclaration circule, plus ironique. « Commencez à entraîner GPT-6, vous pourrez avoir tout le cluster. Gobelins en plus. » La phrase, rapportée par Numerama, est devenue un running gag interne. Elle suggère que le sujet est connu chez OpenAI au point d’être tournée en dérision dans les échanges entre équipes. Le ton informel laisse entendre que la consigne anti-gobelins ne couvre pas l’ensemble du phénomène — d’autres dérives lexicales doivent exister, traitées au cas par cas par d’autres règles.

Cette stratification — règles de bestiaire, règles de ton, règles d’identité — révèle l’architecture réelle des agents LLM grand public en 2026 : un noyau de modèle pré-entraîné, une couche RLHF (apprentissage par renforcement à partir de feedback humain), un prompt système long, et des wrappers tiers. Chaque couche peut introduire ses propres biais. Le fichier de configuration de Codex est, en pratique, une accumulation de patches.

Sur le terrain : les développeurs face aux dérives de Codex

Côté utilisateur, le sujet n’est pas uniquement folklorique. Les développeurs qui automatisent des tâches via Codex CLI rapportent depuis plusieurs mois des comportements anormaux dans leurs pipelines. Certains agents insèrent des références aux gobelins dans des commentaires de code, des messages de commit, voire des noms de variables. D’autres mentionnent les créatures listées par la directive lorsqu’on leur demande de décrire un projet, de générer un README ou de proposer un nom d’application.

L’impact opérationnel n’est pas négligeable. Sur des chaînes CI/CD — intégration et déploiement continus — pilotées par des agents, ces dérives produisent des artefacts qu’un humain doit relire et purger. Le coût se mesure en heures de revue manuelle. Pour les équipes qui déploient des agents en production avec validation a posteriori plutôt qu’a priori, le risque est qu’un commentaire absurde se retrouve dans un dépôt public, exposant la marque de l’entreprise à un effet réputationnel mineur mais réel.

Plusieurs équipes ont commencé à dupliquer la directive d’OpenAI dans leurs propres prompts personnalisés, par effet de précaution. La pratique illustre une difficulté structurelle : un patch écrit par l’éditeur ne couvre que les sessions Codex natives. Dès qu’un utilisateur empile son propre prompt système — ce que font la plupart des intégrations professionnelles —, l’effet de la consigne d’origine peut être atténué ou contredit. Le système de directives empilées agit comme un ensemble de filtres dont l’ordre et la priorité conditionnent l’efficacité finale.

Le phénomène pose aussi une question d’observabilité. Pour qu’un patch comme la consigne anti-gobelins soit écrit, OpenAI doit détecter le problème dans ses journaux. Cela suppose un dispositif d’analyse continue des sorties de Codex, à la recherche de tokens parasites. La firme dispose probablement d’outils internes de classification automatique des dérives, mais leur fonctionnement reste opaque pour les utilisateurs. Les équipes qui voudraient instrumenter leurs propres pipelines doivent reconstruire ces outils par leurs propres moyens, ou s’appuyer sur des solutions tierces dont la maturité reste inégale.

Pour les directions techniques françaises qui évaluent l’adoption d’agents Codex CLI dans leurs équipes développement, le cas gobelin a une portée concrète : il rappelle que les LLM en boucle longue restent susceptibles de dérives qu’aucune métrique standard ne capture. Les benchmarks de codage HumanEval et SWE-bench mesurent la justesse fonctionnelle du code produit, pas la cohérence stylistique sur de longues sessions. Le risque réputationnel — qu’un commit signé par l’agent d’une entreprise contienne une référence absurde — n’apparaît dans aucun classement public. C’est un coût caché, à budgétiser séparément.

Lectures contradictoires : malice, hasard ou bug d’entraînement ?

Sur X, les théories abondent. Trois lectures principales coexistent et structurent les débats.

La première, ironique, voit dans cette directive un aveu d’impuissance : OpenAI ne maîtriserait pas suffisamment ses propres modèles pour prévenir les dérives à la source, et compenserait par des règles cosmétiques. Cette lecture rejoint les critiques récurrentes de la communauté de recherche en alignement, pour qui les approches actuelles relèvent davantage du colmatage que de l’ingénierie maîtrisée. Les défenseurs de cette thèse pointent l’accumulation des patches dans les prompts système comme un signe de dette technique structurelle qui finira par devenir ingérable.

La deuxième, narrative, attribue aux créatures listées un caractère malicieux ou subversif intrinsèque. Gobelins, gremlins, trolls partagent dans la culture occidentale une connotation de désordre. Les évoquer reviendrait à invoquer le chaos. Cette lecture est poétique, peu opérationnelle, mais souligne un point réel : le choix lexical des données d’entraînement pèse. Si les corpus sont saturés de récits où les gobelins perturbent l’ordre établi, le modèle peut associer le mot à des contextes désordonnés et reproduire ce désordre dans ses sorties.

La troisième, technique, est celle privilégiée par Nik Pash et par les analystes attentifs : un effet d’entraînement ou de fine-tuning a installé certains tokens comme attracteurs anormalement forts. La directive est un pansement opérationnel, pas un manifeste. Elle disparaîtra dès qu’une nouvelle version du modèle traitera la cause à la racine.

Aucune de ces trois lectures n’épuise le sujet. Toutes se nourrissent d’un même constat : les agents LLM commerciaux sont des systèmes empilés, dont les comportements émergents échappent partiellement à leurs concepteurs. La consigne anti-gobelins est un témoin de cette opacité. Elle n’est ni anodine ni dramatique : elle dit l’état réel des outils que des dizaines de millions de développeurs utilisent quotidiennement.

Et après : l’auditabilité des prompts système en question

Le cas Codex CLI n’aura probablement pas de suites réglementaires immédiates. Mais il alimente un débat qui s’installe : faut-il rendre publics, partiellement ou intégralement, les prompts système des agents grand public ? Plusieurs initiatives — chez Anthropic notamment, avec ses system cards détaillées — vont déjà dans ce sens. OpenAI publie ses model specs, mais pas l’intégralité des directives opérationnelles de Codex.

Une publication systématique aurait deux effets. Elle permettrait aux utilisateurs avertis de comprendre les biais que leurs requêtes traversent. Elle exposerait aussi des faiblesses exploitables par des attaquants — savoir que le modèle a interdiction de mentionner certains termes ouvre des vecteurs d’injection.

Le compromis qui se dessine est intermédiaire : audit indépendant, transparence sélective, journaux anonymisés des incidents. L’épisode des gobelins, traité avec humour par la communauté, pourrait servir de cas d’école dans les prochaines discussions sur la gouvernance des agents. Une directive bizarre n’est pas un scandale ; le fait qu’elle soit nécessaire en dit long sur l’état réel des LLM en production. La question pour 2026-2027 n’est plus de savoir si les modèles dérivent, mais comment industrialiser leur correction sans accumuler une dette technique ingérable.

FAQ

Pourquoi OpenAI a-t-il interdit aux modèles de parler de gobelins ?

La directive vise à supprimer un comportement observé en production : des agents Codex CLI insèrent spontanément des références aux gobelins, gremlins ou autres créatures dans leurs sorties, parfois sans rapport avec la tâche demandée. Nik Pash, ingénieur sur le projet, a confirmé publiquement cette dérive. La consigne agit comme un patch comportemental immédiat, en attendant un correctif structurel via réentraînement du modèle.

Les utilisateurs constatent-ils vraiment cette dérive ?

Oui. Plusieurs développeurs rapportent que leurs agents Codex CLI deviennent fixés sur les gobelins lors de boucles longues, en particulier quand ils sont couplés au framework communautaire OpenClaw. L’injection d’instructions supplémentaires par ce wrapper produirait des collisions avec le prompt système d’OpenAI, libérant les attracteurs lexicaux que la directive d’origine essayait de bloquer.

Cette consigne est-elle visible par les utilisateurs ?

Non, pas par défaut. Le prompt système de Codex CLI n’est pas exposé dans l’interface utilisateur. Sa découverte résulte de techniques d’extraction documentées : demandes répétées, injections spécifiques, ingénierie inverse. OpenAI ne publie pas l’intégralité de ses directives opérationnelles, contrairement à certaines model specs partiellement diffusées. Le cas gobelin a fait surface via la communauté X.

Faut-il dupliquer la consigne dans ses propres prompts ?

Pour les équipes qui empilent leurs propres instructions sur Codex CLI, la duplication peut être prudente. Un prompt utilisateur étendu peut atténuer l’effet du prompt système d’origine. Reproduire la directive — ou au minimum nommer explicitement les comportements à éviter — limite le risque que des références parasites apparaissent dans des artefacts générés automatiquement (commits, README, commentaires de code).

Sources

Numerama, « « Ne parle jamais de gobelins » : une étrange consigne cachée dans l’IA d’OpenAI provoque des débats sans fin », 29 avril 2026.
Déclarations publiques de Nik Pash, ingénieur Codex chez OpenAI, rapportées par Numerama.

Mes lectures

Newsletter IA

OpenAI Codex : anatomie de la consigne anti-gobelins

Une fuite de prompt système devenue meme tech

Thèse : un cas d’école de fixation sémantique

De Sydney aux gobelins : court historique des prompts dérapants

Anatomie technique : pourquoi un modèle fixe-t-il un mot ?

Sur le terrain : les développeurs face aux dérives de Codex

Lectures contradictoires : malice, hasard ou bug d’entraînement ?

Et après : l’auditabilité des prompts système en question

FAQ

Pourquoi OpenAI a-t-il interdit aux modèles de parler de gobelins ?

Les utilisateurs constatent-ils vraiment cette dérive ?

Cette consigne est-elle visible par les utilisateurs ?

Faut-il dupliquer la consigne dans ses propres prompts ?

Sources

Mohamed Meguedmi

Mes lectures

Newsletter IA

Une fuite de prompt système devenue meme tech

Thèse : un cas d’école de fixation sémantique

De Sydney aux gobelins : court historique des prompts dérapants

Anatomie technique : pourquoi un modèle fixe-t-il un mot ?

Sur le terrain : les développeurs face aux dérives de Codex

Lectures contradictoires : malice, hasard ou bug d’entraînement ?

Et après : l’auditabilité des prompts système en question

FAQ

Pourquoi OpenAI a-t-il interdit aux modèles de parler de gobelins ?

Les utilisateurs constatent-ils vraiment cette dérive ?

Cette consigne est-elle visible par les utilisateurs ?

Faut-il dupliquer la consigne dans ses propres prompts ?

Sources

Articles similaires

Mohamed Meguedmi

L'IA chaque semaine dans votre boîte

Pour aller plus loin

Blocages IP de LaLiga : anatomie d’un revirement parlementaire

Google : anatomie d’une croissance à 109,9 Md$

Sécurité ChatGPT : anatomie d’une mise à niveau matérielle face au phishing

L'actu IA chaque semaine