Kimi K2.6 bat Claude, GPT-5.5 et Gemini sur un puzzle de mots

📋 En bref

Selon ThinkPol, le 30 avril 2026, un modèle ouvert chinois a remporté le Word Gem Puzzle avec 22 points, devançant GPT-5.5 et Claude Opus 4.7. La dominatio

▸ Avril 2026 : un classement qui dérange l'ordre établi
▸ La thèse de ce dossier
▸ Contexte historique : du quiz académique au puzzle adversarial
▸ Analyse technique : anatomie du Word Gem Puzzle

Selon ThinkPol, le 30 avril 2026, un modèle ouvert chinois a remporté le Word Gem Puzzle avec 22 points, devançant GPT-5.5 et Claude Opus 4.7. La domination des laboratoires occidentaux sur les benchmarks de raisonnement combinatoire vient d’être entamée par un acteur jusqu’ici cantonné au statut d’outsider. Trois enseignements, trois lectures, trois zones d’ombre.

🤖 Transparence IA — Cet article a été rédigé avec l'assistance d'outils d'IA générative à partir de sources primaires identifiées, puis relu et validé par Mohamed Meguedmi, fondateur de LagazetteIA (Falcon Consulting, SIRET 89457896200025).

Points clés – Kimi K2.6 a remporté le Word Gem Puzzle avec 22 points (7 victoires, 1 nul, 0 défaite), devançant GPT-5.5 et Claude Opus 4.7, selon ThinkPol (30 avril 2026). – Le test évalue la formation de mots valides sur des grilles allant de 10×10 à 30×30, avec lettres pondérées selon leur fréquence au Scrabble. – GPT-5.5 termine troisième et Claude Opus 4.7 cinquième, signalant un décalage des modèles fermés sur les tâches combinatoires denses. – Sur les grilles 30×30, presque aucun mot de départ ne survit intact : la difficulté combinatoire devient le vrai discriminant. – Un modèle à poids ouverts s’impose sur un benchmark ad hoc, ce qui repose la question des critères d’évaluation des LLM frontaliers.

Sommaire

Avril 2026 : un classement qui dérange l’ordre établi

Le 30 avril 2026, le site canadien ThinkPol publie un compte-rendu d’un défi de programmation orchestré autour d’un puzzle baptisé Word Gem Puzzle. Le verdict tient en une ligne : Kimi K2.6, modèle développé par Moonshot AI et publié sous licence à poids ouverts, termine premier avec 22 points. Derrière lui, dans un ordre qui détonne, on retrouve GPT-5.5 d’OpenAI à la troisième place et Claude Opus 4.7 d’Anthropic à la cinquième. Gemini complète le tableau des modèles testés sans accrocher le podium.

L’événement n’est pas un benchmark canonique de l’industrie. Il ne s’agit ni du MMLU, ni d’HumanEval, ni d’ARC. Le Word Gem Puzzle est un protocole indépendant, et c’est précisément ce qui rend son résultat inconfortable pour les acteurs qui dominent les classements officiels depuis dix-huit mois. Lorsqu’un test sort du périmètre habituel, la hiérarchie attendue ne tient plus mécaniquement.

La thèse de ce dossier

Notre angle est le suivant : ce résultat ponctuel n’annonce ni la fin des modèles fermés, ni l’avènement d’une suprématie chinoise sur les LLM. Il révèle en revanche que les méthodologies d’évaluation sont devenues le vrai champ de bataille, et que les modèles à poids ouverts disposent désormais des moyens techniques pour rivaliser sur des tâches combinatoires complexes. Ce qui se joue, c’est la capacité à se distinguer hors des benchmarks saturés.

Contexte historique : du quiz académique au puzzle adversarial

Pour comprendre la portée de ce résultat, un retour en arrière s’impose. La pratique des benchmarks pour évaluer les grands modèles de langage s’est structurée autour de trois familles dominantes. La première regroupe les tests académiques de connaissances multidisciplinaires, dont MMLU est l’archétype : un questionnaire à choix multiples couvrant cinquante-sept domaines, des mathématiques à la jurisprudence. La deuxième famille couvre la génération de code, avec HumanEval et MBPP comme références historiques. La troisième est dédiée au raisonnement abstrait, avec ARC et ses dérivés.

Ces trois familles partagent une faiblesse devenue manifeste en 2025 : la saturation. Les meilleurs modèles plafonnent au-delà de 90 % sur MMLU, et les écarts entre générations successives se mesurent en fractions de point. Les laboratoires ont compensé par la prolifération de benchmarks spécialisés : SWE-bench pour la résolution de bugs réels, GPQA pour les questions de niveau doctorat, AIME pour les compétitions mathématiques. Mais chacun de ces tests, à mesure qu’il devient un objectif d’optimisation, perd sa capacité de discrimination.

C’est dans cette faille que s’inscrivent les puzzles maison comme le Word Gem Puzzle. Leur intérêt analytique tient à trois propriétés. D’abord, leur singularité : ils n’ont pas servi à entraîner les modèles, ce qui rend la fuite de données peu probable. Ensuite, leur structure adversariale : la difficulté n’est pas figée, elle croît avec la taille de la grille. Enfin, leur exécutabilité automatique : un mot valide se vérifie en consultant un dictionnaire, sans intervention humaine.

Moonshot AI, l’éditeur de Kimi, n’est pas un nouveau venu. Fondée à Pékin, l’entreprise s’est fait connaître dès 2023 avec ses modèles à long contexte. La série Kimi K2 a marqué un virage stratégique : poids ouverts, architecture Mixture-of-Experts revendiquée, et positionnement délibéré sur les tâches techniques. La version K2.6 s’inscrit dans cette continuité. Du côté occidental, la cadence est connue : OpenAI a livré GPT-5.5 sur le créneau du raisonnement renforcé, Anthropic a publié Claude Opus 4.7 en consolidant sa réputation sur la rigueur et la sécurité, Google DeepMind continue d’itérer sur Gemini.

La trajectoire qui mène à avril 2026 n’est donc pas une rupture surgissant de nulle part, mais le résultat d’une convergence : des modèles ouverts qui cessent d’être des suiveurs, des benchmarks officiels qui perdent en pouvoir discriminant, et des tests indépendants qui prennent le relais. Cette convergence éclaire le résultat publié par ThinkPol.

Analyse technique : anatomie du Word Gem Puzzle

Entrons dans le détail du protocole. Le Word Gem Puzzle est un puzzle de lettres dont les grilles vont de 10×10 à 30×30 cases. Les grilles sont remplies de mots du dictionnaire et de lettres dont la fréquence respecte la pondération du Scrabble — les voyelles courantes pèsent plus que les consonnes rares. La mécanique impose au modèle de glisser des lettres dans l’espace vide pour reformer des mots valides.

Trois variables conditionnent la difficulté. La première est la taille : passer de 10×10 (100 cases) à 30×30 (900 cases) multiplie par neuf l’espace de recherche. La deuxième est la densité initiale en mots déjà formés, qui sert d’amorce mais peut aussi piéger un modèle trop conservateur. La troisième est la pondération des lettres : un E ou un A laissent davantage de combinaisons qu’un Z ou un W.

Le score final cumule la longueur des mots formés, leur rareté et la rapidité de génération. Selon ThinkPol, Kimi K2.6 conclut le tournoi avec un bilan de sept victoires, un match nul et zéro défaite, totalisant 22 points. Le détail des écarts par grille n’est pas publié, mais la régularité du parcours indique une robustesse plutôt qu’un coup d’éclat sur un seul format.

Lecture comparée du classement

Le tableau ci-dessous récapitule les positions principales rapportées par ThinkPol.

Rang	Modèle	Éditeur	Statut
1	Kimi K2.6	Moonshot AI	Poids ouverts
3	GPT-5.5	OpenAI	Fermé
5	Claude Opus 4.7	Anthropic	Fermé
Classé sans podium	Gemini	Google DeepMind	Fermé

Les positions deuxième et quatrième ne sont pas attribuées dans la source consultée. Cette opacité partielle est un point de vigilance méthodologique, et nous y reviendrons.

Ce que disent ces rangs, c’est que la hiérarchie habituelle des modèles fermés ne s’applique pas. Sur la plupart des benchmarks publics de programmation, GPT-5.5 et Claude Opus 4.7 occupent les deux premières places, à quelques dixièmes près. Les voir cantonnés à la troisième et la cinquième position dans un test combinatoire dense suggère que les capacités de raisonnement génératif récompensées par les benchmarks classiques ne se traduisent pas mécaniquement sur des tâches de combinatoire dense où chaque coup modifie l’état global du puzzle.

La barrière des grilles 30×30

Le passage à l’échelle est l’élément technique le plus discriminant. Sur une grille de 30×30, presque aucun mot de départ ne survit intact à mesure que les lettres glissent. Cela signifie que le modèle ne peut pas se contenter d’identifier des motifs pré-existants, il doit reconstruire en continu un état mental cohérent. La fenêtre de contexte n’est pas le seul facteur : il faut maintenir une représentation symbolique stable d’une grille qui change à chaque coup. C’est précisément le type de tâche où les modèles à raisonnement renforcé devraient théoriquement exceller.

Or, la victoire de Kimi K2.6 dans cette configuration suggère que sa stratégie d’inférence est mieux adaptée à ce type de raisonnement itératif. Sans accès au prompting détaillé, on ne peut pas exclure que la différence tienne aussi à la longueur de chaîne de raisonnement autorisée pendant le test. Les conditions exactes — budget de tokens, température d’échantillonnage, nombre d’essais — ne sont pas explicitement détaillées dans la source disponible à ce jour.

Un fait reste indiscutable : un modèle à poids ouverts a tenu la cadence sur huit grilles, sans défaite. C’est une donnée brute qui aurait été tenue pour improbable il y a dix-huit mois.

Impact terrain : ce que ce résultat change pour les utilisateurs

Pour les directions techniques françaises et européennes qui sélectionnent un modèle pour leurs cas d’usage internes, le résultat de ThinkPol ne doit pas être lu comme un classement commercial. Il faut le décomposer en plusieurs effets distincts.

Premier effet : la légitimation des modèles à poids ouverts sur les tâches techniques exigeantes. Pendant longtemps, l’argument standard contre l’open-weight tenait à un déficit de performance jugé insurmontable sur les benchmarks de pointe. Avec Kimi K2.6 en tête d’un test indépendant, cet argument doit être réévalué. Les équipes qui hésitaient à déployer un modèle ouvert pour des raisons de souveraineté disposent désormais d’un signal supplémentaire pour justifier leur arbitrage devant la direction.

Deuxième effet : la repolarisation du débat sur les benchmarks. Quand un modèle gagne 4 % sur MMLU et perd 30 % sur un puzzle combinatoire, les classements moyennés masquent l’essentiel. Les acheteurs sophistiqués construiront de plus en plus leurs propres protocoles d’évaluation, calqués sur leurs cas d’usage métier réels. Les benchmarks publics conservent une utilité de signalisation, mais cessent d’être le critère unique.

Troisième effet : la question géopolitique du sourcing. Un modèle développé par Moonshot AI, entreprise pékinoise, soulève des questions de conformité distinctes de celles posées par OpenAI ou Anthropic. Pour les administrations publiques européennes et les acteurs régulés (santé, finance, défense), le différentiel de performance ne suffit pas à trancher. La conformité au RGPD, la localisation des données d’inférence et la traçabilité de la chaîne d’entraînement restent des critères dirimants. Sur ce point, l’avantage de poids ouverts est qu’il permet en théorie une exécution entièrement on-premise, ce qui ne résout pas tout mais ouvre un chemin.

Quatrième effet : l’allocation des budgets internes pour l’évaluation des modèles. Les équipes data qui n’ont pas encore investi dans une infrastructure de tests reproductibles vont devoir le faire. Le coût d’un retard se mesure désormais en mauvaises décisions d’achat, pas seulement en heures d’analyse perdues.

L’impact n’est donc pas seulement symbolique. Il pousse à repenser les processus de sélection de modèle, les dispositifs de gouvernance, et la place laissée aux acteurs hors du duo OpenAI-Anthropic.

Perspectives contradictoires : trois lectures critiques du résultat

Il serait imprudent de tirer des conclusions définitives d’un seul tournoi. Plusieurs lectures sceptiques méritent d’être exposées.

Première objection : le risque de surinterprétation d’un benchmark non standardisé. Le Word Gem Puzzle, malgré ses qualités, n’a pas la valeur statistique d’un MMLU testé sur des dizaines de milliers d’items. Huit parties, c’est une statistique courte. Un modèle peut bénéficier d’un alignement favorable entre sa distribution d’entraînement et le profil exact des grilles. La répétition du protocole sur d’autres jeux de grilles confirmerait, ou nuancerait, le résultat. À ce stade, on dispose d’un signal, pas d’une preuve.

Deuxième objection : l’asymétrie de configuration. Les modèles fermés sont consommés via API avec des paramètres parfois bridés (longueur de chaîne de raisonnement, accès au mode étendu, coût par token), alors qu’un modèle à poids ouverts peut être exécuté localement avec une configuration optimale. Sans transparence complète sur les paramètres utilisés pour chaque acteur, la comparaison reste imparfaite. Cette critique méthodologique vaut pour tous les benchmarks comparant API fermées et modèles auto-hébergés.

Troisième objection : la pertinence métier du test. Former des mots valides sur une grille de Scrabble géante est-il un proxy fiable pour les tâches que les entreprises confient réellement aux LLM ? Probablement pas directement. Pour la rédaction de code, l’analyse documentaire, la synthèse multi-sources ou les agents conversationnels, les capacités évaluées sont partiellement orthogonales. Un acheteur rationnel ne devrait pas reconfigurer sa stack à partir de ce seul résultat.

Ces réserves ne disqualifient pas le test, elles le replacent à sa juste mesure. Un signal isolé, à confirmer par d’autres protocoles, dans un paysage où la transparence méthodologique reste un chantier ouvert.

Prospective : la fin des classements consensuels

Et maintenant ? La trajectoire la plus probable est celle d’une fragmentation accélérée des évaluations. Au cours des prochains mois, on devrait voir émerger une multiplicité de protocoles ad hoc, publiés par des laboratoires académiques, des médias techniques ou des acheteurs sophistiqués. Chacun éclairera un axe de capacité spécifique, sans qu’aucun ne s’impose comme la nouvelle référence consensuelle. Cette fragmentation rendra les comparaisons globales plus difficiles à formuler, mais aussi plus honnêtes.

Pour les laboratoires fermés, l’enjeu sera double. Ils devront d’une part continuer à investir dans les benchmarks officiels où leur position commerciale se joue. Ils devront d’autre part se montrer présents sur les tests indépendants, sous peine de voir s’installer le narratif d’une domination chinoise sur les tâches techniques. Le coût marginal de cette double présence est faible, mais l’effet d’image est lourd.

Pour les acteurs à poids ouverts, le résultat publié par ThinkPol est un précédent stratégique. Il offre une preuve sociale que les laboratoires européens et les communautés open-source peuvent mobiliser dans leurs argumentaires commerciaux. Reste à transformer ce précédent en récurrence : un seul tournoi gagné ne fait pas une trajectoire.

La question ouverte que pose ce dossier est plus large. Si les benchmarks publics deviennent des objectifs d’optimisation et que les benchmarks indépendants restent fragmentaires, sur quelle base rationnelle un acheteur peut-il choisir un modèle pour les trois prochaines années ? La réponse passe sans doute par une internalisation : construire en interne le banc de tests qui correspond à ses cas d’usage, plutôt que de déléguer cette fonction à l’écosystème externe.

FAQ

Pourquoi Kimi K2.6 a-t-il gagné ce défi ?

Selon ThinkPol, Kimi K2.6 a remporté huit parties sur huit (sept victoires et un nul) sur le Word Gem Puzzle, totalisant 22 points. Les conditions exactes de configuration et de prompting ne sont pas détaillées publiquement à ce jour, ce qui invite à la prudence sur l’attribution exclusive du résultat à un facteur unique.

En quoi consiste le Word Gem Puzzle ?

C’est un puzzle de lettres dont les grilles vont de 10×10 à 30×30 cases. Les grilles sont remplies de mots du dictionnaire et de lettres pondérées selon leur fréquence au Scrabble. Le modèle doit glisser des lettres dans l’espace vide pour former de nouveaux mots valides, en maximisant longueur, rareté et rapidité.

Faut-il en conclure que les modèles ouverts dépassent les modèles fermés ?

Non. Un classement isolé ne suffit pas à établir une supériorité générale. Sur la majorité des benchmarks publics de programmation et de raisonnement, les modèles fermés d’OpenAI et d’Anthropic conservent leurs positions. Le résultat publié par ThinkPol constitue un signal sérieux sur les tâches combinatoires denses, à confirmer par d’autres protocoles indépendants.

Quel intérêt pour une direction technique française ?

L’intérêt principal est méthodologique. Ce résultat invite à construire en interne un banc de tests aligné sur les cas d’usage métier réels, plutôt que de s’en remettre exclusivement aux benchmarks publics. Il légitime également l’évaluation de modèles à poids ouverts dans les arbitrages de souveraineté, sous réserve d’une analyse de conformité distincte.

Sources

ThinkPol, « An open-weights Chinese model just beat Claude, GPT-5.5, and Gemini in a programming challenge », 30 avril 2026 — thinkpol.ca

Pour aller plus loin : Anthropic et la course aux 1M de tokens, Mistral face aux benchmarks de raisonnement, La saturation des classements LLM en 2026.

Mes lectures

Newsletter IA

Kimi K2.6 bat Claude, GPT-5.5 et Gemini sur un puzzle de mots

Avril 2026 : un classement qui dérange l’ordre établi

La thèse de ce dossier

Contexte historique : du quiz académique au puzzle adversarial