- ▸ Le constat
- ▸ La thèse
- ▸ Argument 1 — le mot n'est pas la chose
- ▸ Argument 2 — les « world models », une rupture industrielle
Trois ans que nous parlons d’« intelligence » artificielle. Trois ans que nous confondons éloquence et compréhension. Le 21 mai 2026, la MIT Technology Review a publié une table ronde qui pose, enfin, la bonne question : ces machines comprennent-elles quoi que ce soit du monde qu’elles décrivent si bien ?
Je crois que non. Et je crois que c’est le débat qui va structurer les cinq prochaines années.
Points clés – La MIT Technology Review a réuni le 21 mai 2026 Mat Honan, Will Douglas Heaven et Grace Huckins autour d’une question pivot : l’IA peut-elle apprendre à comprendre le monde physique ? – Les modèles de langage actuels manipulent les mots mais ne disposent d’aucun ancrage sensoriel, moteur ou causal — un manque structurel, pas un bug à corriger. – Les laboratoires investissent désormais massivement dans les « world models », architectures censées doter l’IA d’un sens intuitif de la physique, de la durée, de la causalité. – L’enjeu n’est pas philosophique : il est industriel, militaire, médical. Une IA qui ne comprend pas le monde reste un perroquet stochastique, brillant et dangereux. – La sortie ne viendra ni de la peur, ni de l’enthousiasme. Elle viendra d’un choix : continuer à grossir les modèles, ou changer de paradigme.
Le constat
Le 21 mai 2026, la MIT Technology Review a réuni Mat Honan, son rédacteur en chef, Will Douglas Heaven, responsable IA, et Grace Huckins, journaliste sciences, pour une table ronde diffusée en direct aux abonnés. Le titre : « Can AI Learn to Understand the World? » La question, en apparence, est vieille comme l’IA elle-même. Elle remonte aux travaux fondateurs des années 1960, à l’argument de la chambre chinoise de John Searle en 1980, aux disputes interminables entre symbolistes et connexionnistes.
Mais elle revient, en 2026, dans un contexte radicalement neuf. Les modèles de langage ont conquis le grand public. ChatGPT, Claude, Gemini : trois milliards d’utilisateurs cumulés à l’échelle planétaire. Et pourtant, plus ces systèmes s’améliorent, plus leurs limites deviennent visibles. Ils inventent des références. Ils confondent des unités. Ils calculent une trajectoire et oublient la gravité. Ils décrivent une scène et placent l’ombre à l’opposé de la source lumineuse.
Le diagnostic de la table ronde est sans ambiguïté : les entreprises d’IA cherchent désormais à construire des systèmes qui comprennent le monde physique, et non plus seulement qui en parlent. Une rupture conceptuelle. Une rupture stratégique.
La thèse
Je vais l’écrire sans détour. Les grands modèles de langage, tels qu’on les a construits depuis 2020, ont atteint un plafond cognitif structurel. Pas un plafond de performance. Un plafond de nature. On peut les rendre plus rapides, plus longs, plus polis. On ne les rendra pas, par cette voie, intelligents au sens où nous l’entendons.
Pour qu’une machine comprenne le monde, il lui faut autre chose que des séquences de tokens. Il lui faut un modèle interne du monde — ce que les chercheurs appellent un « world model ». Et l’industrie commence à l’admettre.
Argument 1 — le mot n’est pas la chose
Le premier argument est philosophique avant d’être technique. Un modèle de langage est entraîné à prédire le prochain mot dans une séquence. Rien d’autre. C’est sa fonction d’objectif. C’est sa raison d’être mathématique.
Or prédire un mot n’est pas comprendre un monde. Quand un GPT décrit un verre qui tombe d’une table, il ne sait pas ce qu’est un verre, une table, la chute, le sol, le bris. Il sait que dans les milliards de textes ingérés, les séquences contenant « verre », « table », « tombe » sont fréquemment suivies de « cassé », « éclats », « par terre ». La corrélation statistique remplace la causalité physique.
La MIT Technology Review le formule autrement dans sa table ronde du 21 mai : les modèles de langage manipulent une représentation linguistique du monde, qui est elle-même une abstraction massive du monde réel. Deux niveaux d’éloignement entre la machine et la chose. Et entre ces deux niveaux, des angles morts immenses : la durée, la persistance des objets, la causalité, l’intentionnalité.
Un enfant de deux ans qui voit un ballon rouler derrière un canapé sait que le ballon existe toujours. Un modèle de langage de 2026, à 200 milliards de paramètres, ne le sait pas — il l’écrit. Nuance abyssale.
Argument 2 — les « world models », une rupture industrielle
Le second argument est plus encourageant. L’industrie a pris la mesure du problème. Et elle investit, désormais, dans des architectures différentes.
Les world models — modèles de monde — sont la grande affaire de 2026. Il ne s’agit plus d’entraîner une IA à prédire le prochain mot, mais à prédire le prochain état du monde. À simuler intérieurement la physique d’une scène. À anticiper qu’un objet posé sur un bord va tomber, qu’un liquide versé va couler, qu’une porte fermée reste fermée tant que personne ne l’ouvre.
C’est, selon la table ronde du 21 mai, le cœur du débat actuel sur l’IA. Trois familles d’approches s’affrontent : l’intégration de modalités sensorielles (vidéo, son, capteurs robotiques) aux modèles de langage existants ; l’entraînement de modèles spécifiquement dédiés à la prédiction physique, comme des moteurs de jeu inversés ; et l’incarnation des systèmes dans des corps robotiques apprenants.
Aucune de ces voies n’a, à ce jour, démontré la supériorité décisive. Aucune n’est encore industrialisée à grande échelle. Mais l’orientation des budgets de recherche, des deux côtés de l’Atlantique, ne laisse pas de doute : la prochaine génération d’IA ne sera pas plus grande. Elle sera plus située.
L’objection
Voici le contre-argument que je dois honorer. Il est sérieux. Il vient de chercheurs que je respecte.
L’objection tient en une phrase : peut-être que comprendre n’a pas d’importance, du moment que les systèmes sont utiles. C’est l’argument pragmatique, celui de l’ingénieur contre le philosophe. Si une IA rédige un contrat juridique correct, diagnostique une tumeur avec exactitude, pilote un drone sans accident, qu’importe qu’elle « comprenne » au sens humain ? Le résultat, dans bien des cas, est indiscernable d’une compréhension réelle. Pourquoi se fatiguer à exiger plus ?
L’argument est puissant. Il a un mérite : il nous évite la métaphysique paresseuse. Il a une faiblesse, et elle est dirimante : les systèmes qui simulent la compréhension sans en disposer échouent de façon imprévisible. Ils sont brillants sur le centre de la distribution des cas, catastrophiques sur les bords. Ils confondent un texte adversarial avec une instruction légitime. Ils inventent un précédent juridique qui n’a jamais existé. Ils proposent un dosage médicamenteux qui aurait tué un patient si un humain n’avait pas relu.
Le pragmatisme, en IA, n’est tenable que si on accepte que la machine se trompe parfois, là où on ne l’attend pas. Dans les applications à fort enjeu — santé, justice, défense, infrastructures — cette tolérance est en train de s’épuiser. La compréhension n’est pas un luxe philosophique. C’est, à terme, une exigence d’ingénierie.
Ce qui est en jeu
Au-delà de la querelle technique, il y a une question de souveraineté cognitive. Si les world models tiennent leurs promesses, les acteurs qui les maîtriseront — et la table ronde du 21 mai cite implicitement les mêmes suspects habituels, américains et chinois — disposeront d’une avance qualitative, pas seulement quantitative. Une IA qui comprend la physique pilote un robot. Une IA qui comprend la causalité diagnostique mieux. Une IA qui comprend la persistance des objets supervise une chaîne logistique sans halluciner les stocks.
L’Europe, qui n’a pas gagné la course aux modèles de langage géants, a peut-être une fenêtre sur les modèles de monde. Les laboratoires français et allemands sont bien placés en robotique apprenante, en vision par ordinateur, en neurosciences computationnelles. C’est le moment d’arbitrer les financements. C’est le moment de cesser de courir après le train précédent.
Il y a aussi un enjeu démocratique. Tant que les IA ne comprennent pas, elles peuvent être instrumentalisées. Le jour où elles comprennent — vraiment — la question de qui les contrôle devient politique au sens fort. Mieux vaut y réfléchir avant.
Conclusion
Je reviens à mon ouverture. Nous avons confondu, trois ans durant, l’éloquence et la compréhension. La table ronde de la MIT Technology Review du 21 mai 2026 marque, à mes yeux, la fin de cette confusion. Pas la résolution du problème. Sa formulation correcte. C’est déjà beaucoup.
À retenir : – Les modèles de langage ont atteint un plafond cognitif structurel, pas un plafond de performance. – Les world models deviennent la priorité de recherche annoncée des grands laboratoires en 2026. – L’Europe a une fenêtre, étroite, pour ne pas rater la prochaine bascule.
À suivre : les premières démonstrations industrielles de world models embarqués sont attendues d’ici la fin du second semestre 2026. Les arbitrages budgétaires européens devront, eux, être tranchés avant le premier trimestre 2027 si l’on veut peser. Le débat ne fait que commencer.
FAQ
Quels sont les principaux défis pour que l’IA comprenne le monde physique ?
Trois obstacles majeurs : l’absence d’ancrage sensoriel des modèles actuels, la difficulté à représenter la causalité plutôt que la corrélation, et le coût computationnel de l’entraînement multimodal. La table ronde de la MIT Technology Review du 21 mai 2026 souligne qu’aucune des voies explorées n’a démontré sa supériorité décisive à ce jour.
Quelles sont les implications éthiques de l’intégration de l’IA dans le monde physique ?
Le passage d’une IA descriptive à une IA située pose la question du contrôle, de la responsabilité en cas de défaillance, et de la concentration du pouvoir entre les mains des acteurs maîtrisant ces architectures. Une IA qui comprend agit avec une portée différente d’une IA qui prédit du texte. Le cadre juridique doit être pensé en amont, pas en réaction.
Cet article est une tribune et reflète l’opinion de son auteur.



