Depuis 2024, les grands modèles de langage ont fait des bonds impressionnants en mathématiques. Sur certains tests de niveau lycée ou classe préparatoire, ils égalent ou dépassent les meilleurs élèves humains. Des systèmes comme AlphaEvolve de Google DeepMind ont même trouvé de meilleures solutions que les humains sur des dizaines de problèmes ouverts. Alors, où en est-on vraiment ? L’IA est-elle en train de rattraper les mathématiciens professionnels, ou s’agit-il surtout d’un effet de benchmarks saturés ?

Des scores qui grimpent, des benchmarks qui s’épuisent

Pendant longtemps, les modèles de langage étaient notoirement mauvais en mathématiques. GPT-4 achoppait sur des problèmes de topologie de niveau master. Les modèles confondaient des étapes, hallusinaient des résultats, et suffisaient pour des calculs simples mais rien de plus.

Depuis, la nouvelle génération de modèles dits « à raisonnement étendu » a changé les choses. Ces systèmes, au lieu de produire une réponse en un seul passage, décomposent le problème étape par étape avant de répondre. OpenAI avec o3 et o4-mini, Anthropic avec Claude Opus 4 en mode étendu, Google DeepMind avec Gemini 2.5 Pro, ou encore xAI avec Grok 3, tous ont atteint des scores autour de 90 % sur l’AIME (American Invitational Mathematics Examination), un concours réservé aux 5 % meilleurs lycéens américains en mathématiques. Les modèles les plus récents, comme Grok 4 ou Kimi K2 Thinking, atteignent quasiment 100 % sur ce test.

C’est là que se pose le premier problème : les benchmarks classiques sont désormais saturés. Les meilleurs modèles actuels les surpassent si facilement qu’ils ne permettent plus de mesurer des différences significatives entre systèmes.

Pour pallier ça, la startup Epoch AI a développé FrontierMath, un jeu de plus de 300 problèmes conçus par des mathématiciens professionnels, couvrant des domaines comme la théorie des nombres, la géométrie algébrique ou l’analyse. Ces problèmes sont largement inédits, gardés secrets pour éviter la contamination des données d’entraînement, et chacun demande plusieurs heures de travail à un expert humain pour être résolu. Sur ce benchmark, le meilleur score connu à ce jour est celui de GPT-5.4 d’OpenAI, qui atteint environ 47,6 %, loin devant les autres modèles. C’est un résultat remarquable, mais qui illustre aussi à quel point la frontière entre les concours de lycée et les mathématiques de recherche est encore très difficile à franchir pour l’IA.

Lire Aussi : Gemini : Google teste une limite hebdomadaire d’utilisation qui pourrait vous pousser à passer à l’abonnement payant

AlphaEvolve : quand l’IA découvre par elle-même

En mai 2025, Google DeepMind a présenté AlphaEvolve, un système d’un genre différent. Il ne répond pas à des questions : il génère du code pour résoudre des problèmes mathématiques, évalue automatiquement les solutions produites, sélectionne les meilleures, et les améliore en boucle pendant des dizaines ou centaines d’itérations. Le tout en s’appuyant sur Gemini 2.0 comme moteur de génération.

Les résultats publiés sont concrets. AlphaEvolve a notamment résolu un problème ouvert depuis 1969 en multiplication matricielle : l’algorithme de Strassen permettait de multiplier deux matrices complexes 4×4 en 49 multiplications. AlphaEvolve a trouvé un chemin en 48 seulement, un plafond que personne n’avait réussi à abaisser depuis plus de 56 ans. Sur un ensemble de plus de 50 problèmes ouverts en combinatoire, théorie des nombres et géométrie, AlphaEvolve a dépassé les meilleures solutions humaines connues dans environ 20 % des cas, et a égalé les résultats de référence dans 75 % des cas restants.

Ce qui distingue AlphaEvolve des autres systèmes, c’est qu’il n’applique pas des règles fixées à l’avance. Il explore, teste, échoue, et réessaie de manière autonome. Des humains peuvent intervenir à n’importe quelle étape pour orienter la recherche, mais le système peut aussi fonctionner seul. Ce fonctionnement hybride, entre automatisation et collaboration avec un expert, correspond exactement à ce que des agences cherchent à mettre en place avec des programmes comme expMath, qui vise à développer des outils d’IA capables d’assister les mathématiciens sur des problèmes de longue haleine.

Le problème de la longueur des preuves

Il y a une limite physique, pourrait-on dire, à ce que les systèmes actuels peuvent faire en mathématiques de recherche : la longueur des séquences de raisonnement.

Un problème de lycée ou de concours peut se résoudre en 10, 20, parfois 40 étapes logiques. Les modèles actuels savent naviguer dans cet espace. Mais une preuve mathématique difficile peut nécessiter des milliers, voire des millions de lignes dans un assistant de preuve formel. Le nombre de chemins possibles à explorer devient alors astronomique, bien au-delà des capacités actuelles de recherche par force brute.

Une équipe de recherche autour du mathématicien Sergei Gukov, du Caltech, a travaillé sur une approche pour contourner ce problème. L’idée consiste à remplacer de longues séquences d’étapes par des « supermouvements », c’est-à-dire des raccourcis qui permettent de sauter plusieurs étapes d’un coup. Deux modèles de renforcement travaillent ensemble : l’un propose de nouveaux raccourcis, l’autre vérifie s’ils sont utiles. Avec cette méthode, l’équipe a fait avancer la conjecture Andrews-Curtis, un problème ouvert depuis 60 ans. Ils n’ont pas prouvé la conjecture, mais ils ont montré qu’un contre-exemple proposé il y a 40 ans était lui-même faux, fermant ainsi une piste explorée par de nombreux chercheurs pendant des décennies. C’est un gain réel pour la communauté mathématique.

Lire Aussi : Un tiers des nouveaux sites web sont générés par IA 

Ce que les benchmarks ne capturent pas

Les performances sur les benchmarks donnent une image partielle de ce que l’IA sait vraiment faire en mathématiques.

Les concours de type AIME ou IMO (Olympiade internationale de mathématiques) sont difficiles, mais ils obéissent à des structures récurrentes. Les problèmes changent d’une année sur l’autre, mais les techniques pour les résoudre restent souvent les mêmes. Un modèle entraîné sur suffisamment de problèmes similaires peut apprendre à reconnaître ces structures et à appliquer les bons outils. C’est ainsi qu’en 2024, AlphaProof de DeepMind, une combinaison de modèle de langage et d’AlphaZero, a réussi à obtenir un score équivalent à une médaille d’argent à l’IMO.

Mais les mathématiques de recherche n’ont pas de structure prédéfinie. Un mathématicien qui travaille sur une question ouverte ne sait pas à l’avance quelles techniques seront utiles, ni même si le problème est abordable avec les outils existants. Cette exploration à l’aveugle, ce flair pour sentir qu’une piste est prometteuse ou morte, c’est précisément ce que les modèles actuels peinent à reproduire.

Des outils comme PatternBoost de Meta, développé en collaboration avec des mathématiciens comme Geordie Williamson à l’Université de Sydney, essaient d’adresser ce besoin : à partir d’une idée mathématique, le système génère des variantes, des exemples proches, des structures similaires, pour aider le chercheur à identifier des motifs qu’il n’aurait pas vus seul. Ce genre d’outil fonctionne moins comme un résolveur et plus comme un assistant de brainstorming, ce qui correspond mieux à la réalité du travail mathématique au quotidien.

La frontière reste large

Les Problèmes du Millénaire, posés par le Clay Mathematics Institute en 2000 et dotés d’un million de dollars chacun, illustrent bien l’écart qui reste à combler. Six des sept problèmes restent ouverts (le problème de Poincaré a été résolu en 2010), dont la conjecture de Riemann ou P vs NP. Aucun système d’IA actuel n’est en mesure d’apporter une contribution sérieuse à ces problèmes, selon les mathématiciens impliqués.

Ce n’est pas une critique de l’IA, c’est simplement le reflet de l’énorme distance entre « résoudre un problème d’examen difficile » et « produire une idée nouvelle qui fait avancer une question ouverte depuis des décennies ». La différence tient moins à la puissance de calcul qu’à la capacité de créer de nouveaux cadres conceptuels, de choisir la bonne façon de poser une question, ou de voir une connexion inattendue entre deux domaines éloignés.

Pour l’instant, l’IA est utile comme outil d’assistance : elle accélère certains calculs, explore des espaces de solutions trop grands pour être parcourus manuellement, vérifie des preuves formelles, et aide à identifier des pistes mortes plus vite. C’est déjà substantiel pour la recherche mathématique quotidienne.

Mais il y a une différence entre jouer aux échecs mieux que n’importe quel humain et inventer les règles d’un nouveau jeu. En mathématiques de recherche, c’est encore la seconde activité qui définit les vraies avancées.

Source :