ChatGPT 5.5 Pro résout en 80 minutes un problème de recherche

⏱️ Cet article a été publié il y a 51 jours. Dernière mise à jour : 9 mai 2026

📋 En bref

Le 8 mai 2026, le mathématicien britannique Timothy Gowers, médaillé Fields 1998, publie sur son blog WordPress un compte-rendu d'expérience qui agite la c

▸ Mai 2026 : le billet qui a fait basculer Twitter mathématique
▸ Une expérience qui change la nature du débat
▸ D'où l'on vient : trois ans de progression sous tension
▸ Anatomie technique d'une session de 80 minutes

Le 8 mai 2026, le mathématicien britannique Timothy Gowers, médaillé Fields 1998, publie sur son blog WordPress un compte-rendu d’expérience qui agite la communauté scientifique. ChatGPT 5.5 Pro a produit, en un peu plus d’une heure et sans assistance mathématique sérieuse, une démonstration jugée publiable de niveau doctoral. Trois axes d’analyse, trois ruptures, trois questions que la profession ne pourra plus éluder.

🤖 Transparence IA — Cet article a été rédigé avec l'assistance d'outils d'IA générative à partir de sources primaires identifiées, puis relu et validé par Mohamed Meguedmi, fondateur de LagazetteIA.

Points clés 1. Timothy Gowers, médaillé Fields 1998, documente sur son blog daté du 8 mai 2026 un échange où ChatGPT 5.5 Pro résout en 80 minutes un problème de recherche. 2. Le modèle reformule un raisonnement comme « half a geometric series squeezed into a polynomial interval », formule citée verbatim dans le billet original. 3. L’expérience se déroule sans input mathématique sérieux du chercheur, ce qui inverse la dynamique habituelle assistant-prouveur. 4. Le modèle identifie un argument court qu’un mathématicien humain expérimenté avait manqué, signe d’un changement qualitatif et non plus seulement quantitatif. 5. La trajectoire amorcée déplace la valeur du métier vers la formulation des bonnes questions et la vérification, non plus vers l’astuce technique isolée.

Sommaire

Mai 2026 : le billet qui a fait basculer Twitter mathématique

Le 8 mai 2026, peu après 10 h du matin GMT, Timothy Gowers met en ligne sur son blog Gowers’s Weblog, hébergé chez WordPress, un billet intitulé sobrement « A recent experience with ChatGPT 5.5 Pro ». L’auteur n’est pas un commentateur ordinaire. Médaille Fields obtenue à Berlin en 1998 pour ses travaux d’analyse fonctionnelle et de combinatoire additive, professeur au Collège de France depuis 2020, Gowers fait partie des trente mathématiciens vivants dont la voix engage immédiatement la communauté.

Le récit qu’il livre, dépouillé, tient en quelques paragraphes. Confronté à un problème technique qu’il rumine, il ouvre une session avec ChatGPT 5.5 Pro. En un peu plus d’une heure, sans qu’il n’ait fourni d’input mathématique sérieux, le modèle produit une démonstration cohérente, élégante, et qui aurait, écrit-il en substance, mérité publication. Le billet reste prudent. Ce qu’il décrit, en revanche, ne l’est pas.

Une expérience qui change la nature du débat

Jusqu’ici, le débat sur les capacités mathématiques des grands modèles de langage opposait deux camps. D’un côté les sceptiques, pour qui la résolution de benchmarks tient du pattern matching sophistiqué. De l’autre les enthousiastes, qui pointaient les progrès continus sur MATH, AIME, FrontierMath. Le compte-rendu de Gowers, par sa nature qualitative et la stature de son auteur, fait sortir la discussion du registre des scores et la replace dans celui de la pratique réelle de la recherche. C’est cette bascule que ce dossier cartographie.

D’où l’on vient : trois ans de progression sous tension

Pour mesurer l’événement de mai 2026, il faut le replacer dans une trajectoire que les observateurs documentent depuis 2023. Cette année-là, GPT-4 obtient des résultats notables sur des problèmes de niveau lycée et premières années universitaires, mais s’effondre dès qu’on lui présente un raisonnement nécessitant plusieurs étapes inédites. Les chercheurs en intelligence artificielle parlent alors d’un plafond de verre : les modèles savent appliquer, ils ne savent pas inventer.

En 2024, deux ruptures se produisent. D’abord, l’apparition des modèles de raisonnement, qui consacrent du temps de calcul supplémentaire à la phase d’inférence pour explorer plusieurs chaînes de pensée. Ensuite, le travail de DeepMind sur AlphaProof et AlphaGeometry 2, qui obtient au mois de juillet 2024 un résultat équivalent à une médaille d’argent à l’Olympiade internationale de mathématiques. La frontière commence à bouger.

L’année 2025 prolonge la dynamique sans la faire basculer. Les benchmarks classiques — MATH, GSM8K, MMLU-STEM — saturent. Les laboratoires en construisent de nouveaux, plus difficiles, FrontierMath en tête, conçu en 2024 par Epoch AI avec des problèmes calibrés pour résister à la mémorisation. Sur ce dernier, les meilleurs modèles plafonnent fin 2025 autour de 25 à 30 % de réussite, un score à la fois remarquable et insuffisant pour la recherche réelle.

C’est dans ce paysage qu’arrive ChatGPT 5.5 Pro, déployé par OpenAI au printemps 2026 selon les sources accessibles à ce jour. Le modèle n’a pas fait l’objet d’une communication massive : pas de keynote, pas de chiffre mis en scène. La preuve par l’usage devait suffire. Le billet de Gowers en livre la première occurrence publique sérieuse, signée par un nom qui empêche de balayer l’observation d’un revers de main.

Transition. Si l’événement marque, c’est qu’il survient au moment précis où la communauté mathématique doutait. Reste à comprendre ce qui s’est joué techniquement dans cette session de quatre-vingts minutes.

Anatomie technique d’une session de 80 minutes

Le billet publié sur Gowers’s Weblog le 8 mai 2026 ne livre pas l’intégralité du dialogue, mais il en restitue la structure. Le mathématicien soumet un énoncé. Le modèle propose une stratégie. Une discussion s’engage, courte, dans laquelle Gowers reconnaît n’avoir apporté aucune indication mathématique de fond — pas de lemme intermédiaire, pas d’orientation vers une famille de techniques. Le modèle aboutit seul à une démonstration valide.

Au cœur du raisonnement, une formulation qui a immédiatement été reprise sur les réseaux par les commentateurs spécialisés. Le modèle décrit une étape clé comme « half a geometric series squeezed into a polynomial interval ». La phrase, citée verbatim par Gowers dans son billet, ne tient ni de la rhétorique creuse ni du jargon de surface. Elle compresse une intuition technique précise — l’inscription d’une série géométrique tronquée dans une bornes polynomiale — et témoigne d’une capacité à manipuler les objets dans un registre que les mathématiciens reconnaissent comme leur.

Tableau comparatif : trois générations face à la recherche

Génération	Année	Capacité benchmark	Capacité recherche réelle
GPT-4	2023	Niveau lycée maîtrisé	Aucune contribution autonome documentée
Modèles de raisonnement (o1, o3)	2024-2025	FrontierMath ≈ 25-30 %	Assistance ponctuelle, vérification
ChatGPT 5.5 Pro	2026	Non communiqué publiquement	Démonstration autonome de niveau doctoral documentée

Le saut illustré par ce tableau ne se mesure pas en points de score. Il se mesure dans la nature de la tâche accomplie. Passer d’une assistance ponctuelle à une démonstration autonome déplace la frontière fonctionnelle du modèle. C’est précisément ce point que Gowers souligne, sans en surévaluer la portée.

Le facteur temps : un signal sous-estimé

Quatre-vingts minutes, c’est aussi un chiffre à prendre au sérieux. La résolution d’un problème de recherche par un mathématicien humain s’étire généralement sur des semaines, parfois des années. La compression temporelle — un facteur de l’ordre de mille à dix mille selon la difficulté — n’a rien d’anecdotique. Elle modifie l’économie cognitive de la discipline. Un chercheur peut désormais, en théorie, tester douze pistes le matin et conserver les deux qui résistent. Le coût marginal d’une exploration additionnelle s’effondre.

Transition. Cette compression du temps a des conséquences immédiates sur la pratique. Mais elle s’accompagne aussi de limites que le billet du 8 mai souligne, parfois en creux.

Impact terrain : ce que l’expérience signale au métier

Plusieurs catégories de mathématiciens sont concernées différemment par l’événement. Les jeunes chercheurs en thèse, dont la valeur ajoutée repose largement sur la résolution autonome de problèmes techniques, voient leur position bouger. Les chercheurs confirmés, dont la spécificité tient à la formulation des bonnes questions et à la mise en perspective d’un champ, restent en première ligne — pour combien de temps, c’est l’inconnue. Les enseignants, enfin, doivent repenser ce qui distingue un exercice formateur d’un exercice désormais résoluble en une requête.

Le compte-rendu signale aussi un point que Gowers énonce sans triomphalisme. Le modèle a repéré un argument facile que des mathématiciens humains, lui inclus, avaient manqué. Cette observation est plus dérangeante que l’efficacité brute. Elle suggère que l’avantage cognitif du modèle ne tient pas seulement à la vitesse, mais à une capacité à explorer méthodiquement des chemins courts que l’intuition humaine, parce qu’elle privilégie les approches familières, néglige.

Pour les directions de laboratoires, plusieurs ajustements deviennent envisageables à court terme. Premièrement, l’intégration d’un modèle de niveau ChatGPT 5.5 Pro dans le pipeline exploratoire devient un sujet budgétaire et non plus prospectif. Deuxièmement, la question de la paternité scientifique d’une démonstration co-produite — le modèle propose, l’humain valide — exige des règles éditoriales claires que les revues n’ont pas encore formalisées. Troisièmement, la formation doctorale doit anticiper un environnement où la production technique ne sera plus le critère cardinal de l’évaluation.

Ces ajustements se font dans un contexte économique particulier. L’accès à ChatGPT 5.5 Pro se fait via un abonnement payant, dont le coût mensuel exact n’a pas été communiqué publiquement à la date du billet. Cette barrière, modeste pour une institution de recherche bien dotée, redessine pourtant les inégalités d’accès dans une discipline historiquement peu coûteuse en équipement. Une université de pays émergent peut-elle se permettre l’abonnement pour ses doctorants ? La question n’est plus rhétorique.

Transition. Si le terrain bouge, les voix critiques ne manquent pas pour rappeler que l’événement de mai 2026 doit s’interpréter avec mesure. Plusieurs angles d’objection méritent d’être examinés frontalement.

Perspectives contradictoires : ce que les sceptiques opposent

Premier contre-argument, méthodologique. Le compte-rendu de Gowers est anecdotique : un seul cas, un seul problème, un seul chercheur. La science exige des séries, des protocoles, des vérifications croisées. Tant qu’aucune étude reproductible n’aura mesuré la performance de ChatGPT 5.5 Pro sur un panel calibré de problèmes de recherche, parler de bascule reste prématuré. Cette objection est solide. Le billet lui-même n’en disconvient pas, et présente l’expérience comme un signal, non comme une preuve.

Deuxième contre-argument, la question de la contamination des données d’entraînement. Si le problème soumis avait, sous une forme proche, déjà été discuté en ligne dans des prépublications, des forums spécialisés ou des cours filmés, le modèle aurait pu s’appuyer sur des éléments mémorisés plutôt que reconstruits. Aucune source à ce jour ne permet d’écarter ou de confirmer cette hypothèse pour l’épisode du 8 mai 2026. La prudence reste donc de rigueur.

Troisième contre-argument, la sélection. Les mathématiciens qui partagent leurs expériences réussies avec les modèles le font, par un biais bien connu, plus volontiers que ceux qui essuient des échecs silencieux. Pour cinq sessions documentées de réussite éclatante, combien de tentatives infructueuses, abandonnées sans publication, ne nous parviennent pas ? Le numérateur est visible, le dénominateur ne l’est pas.

Quatrième contre-argument, la nature de la démonstration. Une preuve courte et élégante, comme celle décrite par Gowers, n’épuise pas la difficulté du métier. Les conjectures qui résistent — Riemann, Hodge, BSD — ne sauteront pas en quatre-vingts minutes. L’expérience de mai 2026 démontre une capacité réelle sur un segment de la recherche, pas sur l’ensemble du spectre. Tirer de l’une la conclusion de l’autre relève de l’extrapolation indue.

Ces objections, prises ensemble, ne disqualifient pas l’événement. Elles le calibrent. Elles invitent à parler de signal fort plutôt que de preuve définitive, de rupture qualitative plutôt que d’effondrement de la discipline. La nuance, ici, n’est pas un confort. Elle est une exigence intellectuelle.

Transition. Reste à se demander ce que cette nouvelle configuration produira d’ici dix-huit à vingt-quatre mois, en prenant garde de ne projeter ni catastrophe ni utopie.

Prospective : quels scénarios à dix-huit mois

Trois trajectoires se dessinent à court terme, dont aucune ne peut être tranchée à la date du billet. Premier scénario, la généralisation : d’autres mathématiciens reproduisent l’expérience, publient leurs comptes-rendus, et un protocole d’évaluation systématique émerge dans les douze mois. Dans ce cas, les revues spécialisées devront se doter d’une politique éditoriale explicite sur la co-production humain-modèle.

Deuxième scénario, la stagnation contrôlée. La performance de ChatGPT 5.5 Pro se révèle, à l’usage répété, plus inégale qu’annoncée par les premiers récits. Les modèles ultérieurs progressent linéairement sans franchir de nouveau cap qualitatif. La recherche mathématique intègre alors les modèles comme un outil parmi d’autres, sans bouleversement structurel.

Troisième scénario, l’accélération. Les progrès observés en mai 2026 marquent l’entrée dans un régime de capacités cumulatives, où chaque génération annuelle déplace significativement la frontière. La question devient celle de la régulation interne du métier, des règles de paternité, et de la redéfinition du doctorat comme parcours de formation.

Aucun de ces scénarios ne peut être validé aujourd’hui. Tous méritent d’être tenus en main simultanément. La sagesse, si ce mot a encore un sens dans un champ qui bouge si vite, consiste à instrumenter l’observation plutôt qu’à parier sur l’issue.

FAQ

Qu’est-ce qu’un grand modèle de langage et comment aborde-t-il un problème de mathématiques ?

Un grand modèle de langage est un système d’apprentissage automatique entraîné sur de vastes corpus textuels pour prédire des suites de mots cohérentes. Les versions récentes, dites « de raisonnement », allouent du temps de calcul supplémentaire au moment de la requête pour explorer plusieurs chaînes d’arguments avant de produire une réponse. C’est cette architecture qui rend possible des démonstrations multi-étapes.

Le compte-rendu de Timothy Gowers est-il vérifiable indépendamment ?

Le billet a été publié sur le blog personnel du chercheur, hébergé par WordPress, le 8 mai 2026. Il décrit l’expérience sans en publier le transcript intégral. À la date de cet article, aucune réplique indépendante n’est documentée publiquement. La crédibilité repose sur la stature du témoin, médaillé Fields 1998, plutôt que sur une preuve formelle reproductible.

Quelles sont les limites identifiées des modèles actuels en mathématiques ?

Les limites tiennent à la sensibilité au cadrage du problème, au risque d’erreurs subtiles dans les longues chaînes d’arguments, à l’absence de garantie sur la validité des étapes intermédiaires, et à la nécessité d’une vérification humaine systématique. Les démonstrations produites doivent être relues ligne à ligne avant toute soumission à publication.

Faut-il craindre pour les jeunes chercheurs en mathématiques ?

La question est sérieuse et la réponse demeure incertaine. Si la production technique se trouve déléguée, la valeur du métier se déplace vers la formulation des bonnes questions, la mise en perspective d’un champ et la vérification rigoureuse. Les programmes doctoraux devront expliciter cette évolution dans les prochaines années, sans céder au catastrophisme ni à l’aveuglement.

Encadré sources

Timothy Gowers, « A recent experience with ChatGPT 5.5 Pro », Gowers’s Weblog, 8 mai 2026 — https://gowers.wordpress.com/2026/05/08/a-recent-experience-with-chatgpt-5-5-pro/
Citation directe extraite du billet : « half a geometric series squeezed into a polynomial interval » (Gowers, 8 mai 2026).

Pour aller plus loin sur LagazetteIA : Anthropic et la course aux 1M de tokens, FrontierMath : le benchmark qui résiste aux LLM, DeepMind, AlphaProof et la médaille d’argent IMO 2024, Quel doctorat à l’ère des modèles de raisonnement.

Mes lectures

Newsletter IA

ChatGPT 5.5 Pro résout en 80 minutes un problème de recherche

Mai 2026 : le billet qui a fait basculer Twitter mathématique

Une expérience qui change la nature du débat

D’où l’on vient : trois ans de progression sous tension

Anatomie technique d’une session de 80 minutes

Tableau comparatif : trois générations face à la recherche

Le facteur temps : un signal sous-estimé

Impact terrain : ce que l’expérience signale au métier

Perspectives contradictoires : ce que les sceptiques opposent

Prospective : quels scénarios à dix-huit mois

FAQ

Qu’est-ce qu’un grand modèle de langage et comment aborde-t-il un problème de mathématiques ?

Le compte-rendu de Timothy Gowers est-il vérifiable indépendamment ?

Quelles sont les limites identifiées des modèles actuels en mathématiques ?

Faut-il craindre pour les jeunes chercheurs en mathématiques ?

Encadré sources

Mohamed Meguedmi

Guides & Thèmes

Mes lectures

Newsletter IA

Mai 2026 : le billet qui a fait basculer Twitter mathématique

Une expérience qui change la nature du débat

D’où l’on vient : trois ans de progression sous tension

Anatomie technique d’une session de 80 minutes

Tableau comparatif : trois générations face à la recherche

Le facteur temps : un signal sous-estimé

Impact terrain : ce que l’expérience signale au métier

Perspectives contradictoires : ce que les sceptiques opposent

Prospective : quels scénarios à dix-huit mois

FAQ

Qu’est-ce qu’un grand modèle de langage et comment aborde-t-il un problème de mathématiques ?

Le compte-rendu de Timothy Gowers est-il vérifiable indépendamment ?

Quelles sont les limites identifiées des modèles actuels en mathématiques ?

Faut-il craindre pour les jeunes chercheurs en mathématiques ?

Encadré sources

Articles similaires

Mohamed Meguedmi

L'IA chaque semaine dans votre boîte

Pour aller plus loin

50 étudiants épinglés à Brown : l’examen truqué par IA qui ébranle l’Ivy League

HackerRank ouvre son ATS : un même CV noté 66 à 99

ChatGPT : les logs utilisés comme preuve au procès Palisades

L'actu IA chaque semaine

Guides & Thèmes