📋 En bref
J'ai mis à l'épreuve Critique, la nouvelle fonction multi-modèles de Microsoft Copilot qui fait collaborer GPT d'OpenAI et Claude d'Anthropic. Voici les résultats sur cinq cas réels.
  • Comment fonctionne Critique en pratique
  • Mon protocole de test
  • Résultats : ce que Critique apporte vraiment
  • Là où Critique décroche

Microsoft a déployé début avril 2026 une nouvelle architecture multi-modèles dans Copilot Researcher, l’agent de recherche approfondie de Microsoft 365. Baptisée Critique, cette fonctionnalité fait collaborer GPT d’OpenAI et Claude d’Anthropic sur la même requête : le premier rédige, le second relit. J’ai passé plusieurs jours à la mettre à l’épreuve sur des cas réels pour voir si la promesse tient.

Comment fonctionne Critique en pratique

Le principe est simple à expliquer, plus subtil à observer. Lorsque vous lancez une requête de recherche dans Copilot Researcher, l’agent active désormais deux modèles successivement. GPT traite la requête, explore les sources et produit une première version structurée du rapport. Claude prend ensuite le relais en mode éditeur : il vérifie les faits, signale les incohérences, contrôle la qualité des citations et propose des corrections.

L’utilisateur ne voit que le résultat final, mais une option permet d’afficher les annotations de Claude sur la version brute de GPT. Cette transparence change beaucoup de choses dans la façon dont on lit le document : on comprend pourquoi telle phrase a été retravaillée, ou pourquoi une affirmation a été nuancée.

Mon protocole de test

Pour évaluer Critique sans biais, j’ai choisi cinq sujets que je connais bien et sur lesquels je peux vérifier rapidement la qualité des sources : la régulation européenne de l’IA, les performances de Mistral, les acquisitions récentes d’OpenAI, les tarifs des modèles d’inférence et les benchmarks SWE-Bench Pro. Pour chaque sujet, j’ai lancé deux requêtes identiques : une avec Critique activé, une sans.

Le critère principal portait sur trois dimensions : exactitude factuelle, qualité des citations et utilité opérationnelle du rapport. J’ai aussi mesuré le temps d’exécution, qui constitue un indicateur indirect du coût en compute.

Résultats : ce que Critique apporte vraiment

Sur les cinq tests, Critique améliore la qualité finale de manière mesurable. Les chiffres concordent avec ce qu’annonce Microsoft : un gain de 7 points de pourcentage en moyenne sur leur benchmark interne, soit une progression d’environ 14 % par rapport au meilleur système précédent.

Concrètement, voici ce que j’ai observé. Sur la requête « régulation européenne de l’IA », GPT seul citait deux sources officielles et trois articles de presse spécialisée. Avec Critique, Claude a remplacé un article daté par une version plus récente du texte officiel et signalé une affirmation imprécise sur le calendrier d’application. Le rapport final tenait debout sans correction supplémentaire de ma part.

Sur la requête « benchmarks SWE-Bench Pro », GPT seul donnait un classement correct mais omettait deux modèles récents. Critique les a réintégrés et a corrigé un score erroné de quelques dixièmes de point. Le détail compte quand l’écart entre les meilleurs modèles se joue à un point près.

Là où Critique décroche

Le système n’est pas magique. Sur deux des cinq tests, Critique n’apportait pas d’amélioration significative. Le premier cas concernait un sujet très récent — moins de 48 heures — pour lequel les deux modèles disposaient d’une information limitée. Aucune relecture ne peut compenser une absence de données.

Le second cas concernait une requête vague sur les « tendances de l’IA en 2026 ». GPT a produit un rapport générique, Claude n’a corrigé que quelques tournures, et le résultat final restait flou. Critique excelle quand la requête est précise et vérifiable. Sur les questions ouvertes ou prospectives, son apport est marginal.

J’ai aussi noté une augmentation visible du temps de réponse. Comptez environ 1,5 à 2 fois la durée d’une requête simple. Pour des recherches stratégiques, cette latence reste acceptable. Pour des consultations de routine, elle devient pesante.

Council : la variante side-by-side

Microsoft propose en parallèle Model Council, une fonctionnalité distincte qui adopte une approche différente. Plutôt que de faire collaborer les deux modèles, Council les interroge en parallèle et affiche leurs deux réponses côte à côte avec leur raisonnement complet.

L’usage diffère totalement. Critique cherche à produire la bonne réponse. Council vous montre deux réponses pour vous aider à juger. J’ai trouvé Council plus utile pour les décisions stratégiques où le désaccord entre modèles est en soi une information : si GPT et Claude divergent sur l’interprétation d’un texte juridique, c’est probablement que la formulation prête à débat.

L’inconvénient majeur de Council est cognitif : lire deux rapports complets demande du temps. La fonctionnalité s’adresse plutôt aux utilisateurs avancés qui acceptent d’investir dans la lecture comparative.

Le coût et le positionnement Microsoft

Critique et Council sont inclus dans Copilot Researcher, lui-même réservé aux licences Microsoft 365 Copilot (30 $ par utilisateur et par mois en supplément des licences Microsoft 365 standard). Pour une équipe qui utilise déjà l’écosystème, l’ajout n’a pas de coût marginal.

Le positionnement stratégique mérite d’être souligné. Microsoft, qui distribuait jusqu’ici exclusivement les modèles d’OpenAI dans Copilot, intègre ouvertement Claude d’Anthropic. C’est un signal fort : le partenariat historique avec OpenAI ne signifie plus exclusivité technique. Microsoft mise sur la complémentarité plutôt que sur l’alignement avec un fournisseur unique.

Pour qui Critique a du sens — et pour qui non

D’après mes tests, Critique apporte un bénéfice net dans trois cas. Premier cas : les rapports destinés à une décision externe, où la qualité des sources est non négociable. Deuxième cas : les sujets techniques complexes où une erreur de chiffre peut compromettre toute l’analyse. Troisième cas : les requêtes sur des domaines réglementés où la précision juridique compte.

À l’inverse, Critique apporte peu dans trois autres situations. Pour des notes internes informelles, le coût en latence n’est pas justifié. Pour des sujets très récents où les sources sont rares, la double validation tourne à vide. Pour des requêtes exploratoires où vous cherchez des angles plutôt que des certitudes, la dynamique éditoriale de Claude tend à uniformiser ce que GPT avait laissé d’ouvert.

Mon verdict

Critique constitue une amélioration concrète de Copilot Researcher, sans rupture spectaculaire. Le gain de 14 % en qualité mesurée correspond à mon ressenti après une semaine d’usage : les rapports sont plus solides, mieux sourcés, et je passe moins de temps à corriger des affirmations approximatives.

L’intérêt réel se situe peut-être ailleurs. En faisant collaborer deux modèles concurrents, Microsoft introduit une forme de contrôle croisé qui change le rapport de l’utilisateur à la sortie de l’IA. On lit moins comme un résultat à valider et davantage comme un document déjà revu. Pour les équipes qui produisent beaucoup de contenu analytique, cette différence de posture compte autant que les gains mesurables sur les benchmarks.

Je continue d’utiliser Critique sur les recherches qui comptent. Pour le reste, je reste sur le mode standard de Copilot. C’est probablement la bonne grille d’usage : réserver la double validation aux moments où elle apporte une vraie marge de sécurité, sans la généraliser au quotidien.