Diagnostic en urgence : l'IA o1 dépasse deux médecins de Harvard

📋 En bref

Sur 76 cas de triage aux urgences, le modèle o1 d'OpenAI a posé le diagnostic exact ou très proche dans 67 % des situations, contre 55 % et 50 % pour les d

▸ 76 dossiers, trois diagnostiqueurs, un écart inattendu
▸ Une thèse en trois temps
▸ Contexte historique : trente ans d'IA médicale, et une bascule récente
▸ Analyse technique : ce que mesurent vraiment les 12 points d'écart

Sur 76 cas de triage aux urgences, le modèle o1 d’OpenAI a posé le diagnostic exact ou très proche dans 67 % des situations, contre 55 % et 50 % pour les deux médecins urgentistes auxquels il était comparé. L’étude conduite par des chercheurs de Harvard, rapportée le 3 mai 2026 par TechCrunch, ne signe pas la fin du métier d’urgentiste — mais elle déplace le débat. Trois lectures, trois acteurs, trois risques.

Points clés 1. Précision diagnostique : 67 % pour le modèle o1, 55 % et 50 % pour les deux médecins urgentistes comparés sur la même base. 2. Périmètre limité : 76 cas de triage, sans prétraitement des données, dossiers médicaux électroniques bruts identiques pour humains et machine. 3. Le différentiel se concentre sur la première évaluation du patient, moment où l’information est la plus rare et la décision la plus engageante. 4. L’écart de 12 points avec le médecin le plus performant questionne la place de l’IA en triage, pas la légitimité du diagnostic médical lui-même. 5. Trois zones grises persistent : taille de l’échantillon, biais de sélection des cas, transposabilité hors d’un centre académique américain.

Sommaire

76 dossiers, trois diagnostiqueurs, un écart inattendu

Une équipe de Harvard a soumis 76 cas réels de triage aux urgences à un même protocole. Trois acteurs ont rendu un diagnostic : deux médecins urgentistes en exercice et le modèle o1 d’OpenAI. La règle du jeu était identique pour les trois : disposer des seules informations effectivement présentes dans le dossier médical électronique au moment où la décision devait être prise. Pas de récit reconstruit. Pas d’éléments ajoutés a posteriori. Le résultat tient en trois chiffres rapportés le 3 mai 2026 par TechCrunch : 67 %, 55 %, 50 %. Le modèle o1 a fourni le diagnostic exact ou très proche dans deux cas sur trois. Le premier médecin a été dans la cible une fois sur deux et un peu plus. Le second, exactement une fois sur deux. Aucun travail antérieur publié dans la presse généraliste n’avait jusqu’ici objectivé un tel écart sur un protocole de triage adossé à des dossiers réels.

Une thèse en trois temps

L’étude ne dit pas que l’IA remplace l’urgentiste. Elle dit que, sur une fenêtre précise — le diagnostic de triage à partir d’un dossier brut — un modèle généraliste de dernière génération produit moins d’erreurs que des humains formés à cette tâche. Trois axes structurent l’analyse qui suit : ce que l’expérience mesure réellement, ce qu’elle ne mesure pas, et ce qu’elle change pour la chaîne de soin.

Contexte historique : trente ans d’IA médicale, et une bascule récente

L’idée d’une IA diagnostique n’a rien de neuf. Les premiers systèmes experts médicaux remontent aux années 1970 : MYCIN, conçu à Stanford pour le diagnostic des infections bactériennes, atteignait déjà des performances comparables à celles de spécialistes humains sur des cas restreints. Trois décennies durant, ces systèmes sont restés cantonnés à la recherche, freinés par leur incapacité à traiter le langage naturel et la documentation clinique réelle, faite d’abréviations, de phrases tronquées et de notes manuscrites numérisées.

La bascule s’opère à partir de 2020 avec l’arrivée des grands modèles de langage. Une première génération de travaux teste alors GPT-3 puis GPT-4 sur les questions standardisées des examens médicaux américains. Les modèles franchissent le seuil de réussite. Mais la critique est immédiate : un examen à choix multiples ne ressemble pas à une consultation. La question pertinente n’est pas « le modèle réussit-il un QCM », mais « le modèle pose-t-il le bon diagnostic dans une scène clinique réelle ».

C’est précisément ce que cherche à mesurer l’étude de Harvard. Le passage des benchmarks académiques aux dossiers réels a pris environ six ans. Pendant la même période, plusieurs équipes — au Beth Israel Deaconess, à la Mayo Clinic, à l’AP-HP en France — ont publié des résultats encourageants sur des cas isolés ou des spécialités étroites comme la dermatologie, la radiologie, l’ophtalmologie. La nouveauté, ici, tient à un terrain rarement exploré : le service d’urgence, où la pression temporelle, l’incomplétude documentaire et l’hétérogénéité des cas rendent l’évaluation plus difficile.

Cette filiation est importante : l’étude Harvard n’arrive pas dans un vide. Elle prolonge un mouvement déjà ancien, mais sur le terrain le plus exigeant. Et elle le fait avec un modèle, o1, qui appartient à la famille des « modèles de raisonnement » — un type d’architecture popularisé par OpenAI à la fin 2024, qui décompose explicitement le problème en étapes intermédiaires avant de produire une réponse. Ce design vise précisément les tâches où l’inférence pas-à-pas compte autant que la mémorisation factuelle. Le diagnostic différentiel en fait partie.

Analyse technique : ce que mesurent vraiment les 12 points d’écart

Le chiffre central de l’étude est l’écart de précision : 67 % pour o1, contre 55 % pour le médecin le plus performant, soit 12 points. Pour le second médecin, l’écart monte à 17 points. Ces chiffres méritent une mise en perspective. Le tableau ci-dessous résume les trois performances sur la même base de 76 cas.

Diagnostiqueur	Diagnostic exact ou très proche	Écart vs médecin 1	Écart vs médecin 2
Modèle o1 (OpenAI)	67 %	+ 12 points	+ 17 points
Médecin urgentiste 1	55 %	référence	+ 5 points
Médecin urgentiste 2	50 %	– 5 points	référence

Trois lectures sont possibles. La plus simple : le modèle est meilleur. La plus prudente : le modèle a accès à la même information, sans charge cognitive concurrente, sans fatigue de garde, sans bruit ambiant — ce qui constitue un avantage de conditions plus que de capacité brute. La plus structurelle : la dispersion entre les deux médecins (cinq points) montre qu’il existe une variabilité humaine intrinsèque sur ce type de tâche, ce qui rend la comparaison sensible au choix des cliniciens recrutés.

Le point méthodologique central, souligné par les chercheurs, est l’absence de prétraitement des données. Concrètement, le modèle reçoit la même information que celle dont disposait le médecin au moment de la décision : motif d’admission, antécédents, paramètres vitaux, premiers résultats biologiques s’ils étaient disponibles. Pas plus. Pas moins. Cette neutralité de l’entrée est rare dans les études d’IA médicale, où l’usage est plutôt de fournir aux modèles un dossier nettoyé, structuré, parfois reformulé pour faciliter l’analyse. Ici, le dossier électronique brut sert d’arbitre.

Cette précision méthodologique produit deux effets. Premier effet : elle rend la comparaison plus honnête, puisque les trois diagnostiqueurs partent du même point d’information. Second effet, moins commenté : elle suggère que les modèles de raisonnement de dernière génération sont devenus capables de digérer la documentation clinique réelle, avec ses abréviations et ses incohérences, sans qu’un humain ait à la traduire au préalable. C’est un changement opérationnel important. Les pilotes hospitaliers menés entre 2022 et 2024 reposaient encore largement sur des couches de prétraitement coûteuses à maintenir.

Le second indicateur clé concerne le moment de la décision. Selon les chercheurs, à chaque point de contact diagnostique du parcours, o1 a fait nominalement mieux ou aussi bien que les deux médecins. Mais l’écart se creuse à la première évaluation — celle où l’information est la plus pauvre. Cette observation est contre-intuitive : on aurait pu attendre l’inverse, l’humain étant réputé meilleur sur le raisonnement parcimonieux. Elle l’est moins si l’on considère que le diagnostic différentiel à la première évaluation relève davantage du rappel structuré d’arbres décisionnels que de l’intuition clinique. C’est précisément le terrain où les grands modèles de langage ont un avantage statistique : ils ont vu, à l’entraînement, un volume de descriptions cliniques qu’aucun médecin ne verra dans toute sa carrière.

Trois ordres de grandeur permettent d’apprécier la portée du résultat. Premier ordre : 76 cas. C’est peu pour une étude statistique, suffisant pour une étude exploratoire de faisabilité. Deuxième ordre : 12 à 17 points d’écart. C’est large dans un domaine où les marges de progression sont habituellement comptées en unités de pourcentage. Troisième ordre : un seul centre, une seule période, deux médecins comparés. La généralisation à l’échelle d’un système de soin demanderait des protocoles multi-sites, sur plusieurs centaines de cas, avec un panel de cliniciens élargi.

Impact terrain : ce qui change dans un service d’urgences

Les services d’urgences français ont accueilli plus de vingt millions de passages par an au cours des dernières années, selon les données de la Drees régulièrement reprises par les fédérations hospitalières. La pression sur le triage est documentée : temps d’attente, surcharge des médecins seniors, recours croissant à des juniors moins expérimentés sur les premiers paliers du parcours. L’étude Harvard, même limitée à 76 cas, intervient dans ce contexte. Elle ouvre trois chantiers concrets.

Premier chantier : le triage assisté. Une IA capable de proposer un diagnostic différentiel en deux ou trois secondes à partir du dossier d’admission ne se substitue pas à l’évaluation clinique en chair et en os. Elle fournit un filet — une liste de pistes à exclure ou à confirmer. Plusieurs hôpitaux européens explorent déjà cette voie, notamment via des copilotes intégrés aux dossiers patients informatisés. L’enjeu n’est plus de savoir si l’outil est techniquement capable, mais de définir le périmètre dans lequel il rend service sans créer de dépendance excessive.

Deuxième chantier : la formation. Si un modèle généraliste atteint 67 % de précision sur un triage et qu’un médecin senior plafonne à 55 %, la question pédagogique est posée. L’IA peut-elle servir d’outil de débriefing post-garde, en aidant le clinicien à revisiter ses raisonnements ? Le format se prête à des séquences pédagogiques courtes, adossées à des cas réels anonymisés. Plusieurs facultés américaines testent depuis 2024 ce type d’usage en simulation.

Troisième chantier : la responsabilité. Un diagnostic posé par une IA dans un service d’urgences relève-t-il du médecin qui valide la proposition, du fabricant du logiciel, de l’hôpital qui l’a déployé ? Le cadre juridique européen, structuré par le règlement sur l’IA entré progressivement en application depuis 2024-2025, classe les dispositifs médicaux à fort impact comme « à haut risque ». Cela impose des obligations d’évaluation, de transparence et de surveillance post-déploiement. Une étude à 76 cas ne suffit pas à franchir ces étapes. Elle suffit à les rendre incontournables.

L’impact terrain ne se limite pas à l’hôpital. La médecine de ville, la téléconsultation et les centres de régulation des appels d’urgence — le 15 en France, le 911 aux États-Unis — sont des candidats naturels à l’aide diagnostique algorithmique. Le tri téléphonique repose précisément sur une information rare et une décision rapide. C’est le profil de tâche où l’écart de 12 points relevé par Harvard est le plus pertinent.

Perspectives contradictoires : trois objections sérieuses

L’étude produit des chiffres remarquables. Elle prête aussi le flanc à des critiques argumentées qu’il serait imprudent d’écarter. Trois lignes d’objection méritent d’être examinées.

Première objection : l’échantillon. Soixante-seize cas ne suffisent pas à fonder une politique publique. Sur ce volume, l’écart entre les deux médecins humains atteint déjà cinq points, ce qui suggère une marge de variabilité importante. Si l’on avait recruté deux autres cliniciens, le différentiel avec l’IA aurait pu se réduire — ou s’élargir. La robustesse statistique exige des cohortes plus larges, avec des tirages aléatoires de cliniciens et de cas. Sans cela, le risque est d’extrapoler une tendance à partir d’un signal faible.

Deuxième objection : le biais de sélection des cas. L’étude porte sur des dossiers déjà constitués, dont l’issue est connue rétrospectivement. Cela introduit un biais classique : les cas retenus ont une trajectoire documentée jusqu’au diagnostic final, ce qui n’est pas le cas dans la vraie vie d’un service d’urgences, où une partie des patients quittent l’hôpital sans diagnostic ferme. La performance de l’IA dans des situations véritablement ambiguës — où aucun diagnostic clair n’émerge — n’est pas mesurée par ce protocole.

Troisième objection : le périmètre. La comparaison oppose un modèle généraliste à des médecins urgentistes humains, mais ne mesure pas la performance du couple humain + IA, qui est le scénario opérationnel réaliste. Les travaux antérieurs en radiologie, notamment ceux publiés à partir de 2018 sur la détection du cancer du sein, ont systématiquement montré que l’humain assisté faisait mieux que l’humain seul ou que l’IA seule. L’étude Harvard ne dit rien de cette configuration. Or, c’est elle qui décidera de l’architecture des systèmes déployés.

À ces trois objections s’ajoute une dimension culturelle. Le modèle o1 a été entraîné majoritairement sur de la documentation médicale anglo-saxonne. Sa transposition à un contexte français, où la nomenclature, les habitudes de prescription et la terminologie diffèrent, ne va pas de soi. La généralisation internationale demandera des évaluations spécifiques par système de soin et par langue. Plusieurs équipes européennes ont commencé ce travail, mais aucun résultat à grande échelle n’est aujourd’hui consolidé.

Prospective : quelle place pour le diagnostic algorithmique en 2026-2028 ?

La trajectoire des deux prochaines années se dessine sur trois lignes. Première ligne : la multiplication d’études de validation sur des cohortes plus larges et multi-sites. La méthodologie posée par Harvard — données brutes, comparaison directe, périmètre restreint — devrait servir de patron à d’autres équipes. Si les résultats convergent, la conversation passera du « est-ce possible » au « comment l’intégrer ».

Deuxième ligne : la bataille des architectures. Les modèles de raisonnement comme o1 se présentent comme adaptés au diagnostic différentiel. Mais d’autres approches existent : modèles spécialisés entraînés sur des corpus médicaux dédiés, modèles plus petits déployables localement pour respecter la confidentialité des données patient, systèmes hybrides combinant un moteur d’inférence à un graphe de connaissances. Le choix entre ces options conditionnera le coût, la latence et la souveraineté des futurs déploiements hospitaliers.

Troisième ligne : la question politique. Un système de soin qui s’appuierait sur une IA pour le triage doit décider qui porte la responsabilité finale, comment l’outil est audité, qui contrôle ses mises à jour. Ces décisions ne relèvent pas des laboratoires d’IA mais des autorités sanitaires et des sociétés savantes. Le rythme des unes et des autres ne coïncide pas. C’est probablement la principale incertitude des prochaines années : la technologie progresse plus vite que la doctrine d’usage.

Une question reste ouverte. Si un protocole multi-sites confirmait l’avantage observé par Harvard, quel principe doit l’emporter — la précision diagnostique brute ou la place historique du jugement clinique humain au cœur de la relation de soin ? La réponse n’est ni technique ni politique seulement. Elle est culturelle.

FAQ

Pourquoi l’IA a-t-elle dépassé les médecins sur ces cas ?

Le modèle o1 a bénéficié de trois conditions favorables : un accès au dossier médical électronique sans charge concurrente, l’absence de fatigue de garde, et une couverture statistique des descriptions cliniques bien supérieure à celle d’un humain. L’écart de 12 points relevé par l’étude Harvard tient autant à ces conditions qu’à la capacité du modèle.

L’IA peut-elle remplacer un urgentiste ?

Non, et l’étude ne le prétend pas. Elle mesure une tâche précise, le diagnostic de triage à partir d’un dossier, sur 76 cas. Elle ne mesure ni l’examen clinique, ni la communication avec le patient, ni la gestion d’une situation critique en temps réel. Le scénario réaliste est celui d’un urgentiste assisté, pas remplacé.

L’étude est-elle généralisable au système de soin français ?

Pas en l’état. Le modèle o1 a été entraîné majoritairement sur de la documentation médicale anglo-saxonne, et l’étude porte sur un seul centre américain. Une transposition au contexte français demanderait une validation spécifique sur des cohortes locales, avec une attention particulière à la nomenclature et aux protocoles de prescription propres à l’Hexagone.

Quels garde-fous pour un déploiement clinique ?

Le règlement européen sur l’IA classe les dispositifs médicaux à fort impact comme « à haut risque », ce qui impose une évaluation, une transparence sur le fonctionnement et une surveillance après déploiement. Une étude à 76 cas ne franchit pas ce seuil. Elle indique une piste qui doit être confirmée par des protocoles multi-sites et des évaluations indépendantes.

Sources

TechCrunch, In Harvard study, AI offered more accurate emergency room diagnoses than two human doctors, 3 mai 2026 — https://techcrunch.com/2026/05/03/in-harvard-study-ai-offered-more-accurate-diagnoses-than-emergency-room-doctors/

Mes lectures

Newsletter IA

Diagnostic en urgence : l’IA o1 dépasse deux médecins de Harvard

76 dossiers, trois diagnostiqueurs, un écart inattendu

Une thèse en trois temps

Contexte historique : trente ans d’IA médicale, et une bascule récente

Analyse technique : ce que mesurent vraiment les 12 points d’écart

Impact terrain : ce qui change dans un service d’urgences

Perspectives contradictoires : trois objections sérieuses

Prospective : quelle place pour le diagnostic algorithmique en 2026-2028 ?

FAQ

Pourquoi l’IA a-t-elle dépassé les médecins sur ces cas ?

L’IA peut-elle remplacer un urgentiste ?

L’étude est-elle généralisable au système de soin français ?

Quels garde-fous pour un déploiement clinique ?

Sources

Mohamed Meguedmi

Mes lectures

Newsletter IA

76 dossiers, trois diagnostiqueurs, un écart inattendu

Une thèse en trois temps

Contexte historique : trente ans d’IA médicale, et une bascule récente

Analyse technique : ce que mesurent vraiment les 12 points d’écart

Impact terrain : ce qui change dans un service d’urgences

Perspectives contradictoires : trois objections sérieuses

Prospective : quelle place pour le diagnostic algorithmique en 2026-2028 ?

FAQ

Pourquoi l’IA a-t-elle dépassé les médecins sur ces cas ?

L’IA peut-elle remplacer un urgentiste ?

L’étude est-elle généralisable au système de soin français ?

Quels garde-fous pour un déploiement clinique ?

Sources

Articles similaires

Mohamed Meguedmi

L'IA chaque semaine dans votre boîte

Pour aller plus loin

Orientation 2026 : pourquoi les parents refusent le pilote IA

IA en triage : le modèle o1 d’OpenAI atteint 67 % de précision diagnostique

DeepClaude : anatomie d’un fork qui divise par 17 la facture

L'actu IA chaque semaine