La créativité humaine est un trait fondamental qui nous permet de surmonter des obstacles, d’interagir avec des inconnus et d’innover dans divers domaines. Cette capacité repose en grande partie sur notre curiosité et notre goût pour la nouveauté.

Pour que l’intelligence artificielle (IA) puisse atteindre un niveau de compréhension et d’interaction similaire, elle doit également être capable d’explorer de nouvelles idées et expériences. Mais comment choisir les directions les plus prometteuses parmi une infinité de possibilités ?

Exploiter l’intuition humaine

Une approche innovante consiste à utiliser des grands modèles de langage (LLM) formés sur des quantités massives de textes humains pour guider l’IA. Ces modèles, comme ceux qui alimentent les chatbots, peuvent aider à hiérarchiser les possibilités à explorer.

Deux nouvelles études adoptent cette méthode :

1. Intelligent Go-Explore

Le laboratoire de Jeff Clune à l’Université de Colombie-Britannique a créé Intelligent Go-Explore (IGE). Ce système utilise un LLM pour sélectionner des états « prometteurs » dans les archives et décider des actions à entreprendre.

IGE est une évolution de Go-Explore, un système créé en 2018 qui apprend à jouer à des jeux vidéo nécessitant de l’exploration. Go-Explore intègre un agent de jeu qui s’améliore grâce à un processus d’essai et d’erreur appelé apprentissage par renforcement. Le système enregistre périodiquement les progrès de l’agent dans une archive, puis sélectionne ultérieurement des états intéressants sauvegardés et progresse à partir de là.

Cependant, la sélection des états intéressants dans Go-Explore repose sur des règles codées à la main, telles que le choix d’endroits peu visités. Bien que cela soit une amélioration par rapport à la sélection aléatoire, cette méthode est également rigide. Intelligent Go-Explore, en revanche, utilise un LLM pour sélectionner des états « prometteurs » et décider des actions à entreprendre. Cela rend le processus plus flexible et intelligent.

Des résultats impressionnants

IGE a été testé sur trois types de tâches nécessitant des solutions en plusieurs étapes et impliquant le traitement et la production de texte. Dans l’une d’elles, le système doit organiser des nombres et des opérations arithmétiques pour produire le nombre 24. Dans une autre, il accomplit des tâches dans un monde quadrillé en deux dimensions, par exemple en déplaçant des objets, sur la base de descriptions et d’instructions textuelles. Et enfin, dans un troisième, il joue en solo à des jeux de cuisine, de chasse au trésor ou de collecte de pièces dans un labyrinthe, également à partir d’un texte.

Les chercheurs ont comparé IGE à quatre autres méthodes. L’une d’entre elles échantillonnait les actions de manière aléatoire, tandis que les autres introduisaient l’état actuel du jeu et l’historique dans un LLM et demandaient une action. Ils n’ont pas utilisé d’archives d’états de jeu intéressants. IGE a surpassé toutes les méthodes de comparaison ; lors de la collecte de pièces, il a gagné 22 parties sur 25, alors qu’aucune des autres méthodes n’en a gagné. On peut supposer que le système a obtenu de tels résultats en s’appuyant de manière itérative et sélective sur des états et des actions intéressants, ce qui fait écho au processus de créativité chez l’homme.

2. OMNI-EPIC

Le deuxième nouveau système ne se contente pas d’explorer les moyens de résoudre les tâches qui lui sont assignées. Comme des enfants inventant un jeu, il génère de nouvelles tâches pour accroître les capacités des agents d’IA. Ce système s’appuie sur un autre système créé par le laboratoire de Clune l’année dernière, appelé OMNI (pour Open-endedness via Models of human Notions of Interestingness). Dans un environnement virtuel donné, tel qu’une version 2D de Minecraft, un LLM suggère de nouvelles tâches à un agent d’IA en fonction des tâches précédentes qu’il a réussies ou ratées, construisant ainsi automatiquement un programme d’études. Mais OMNI était limité aux environnements virtuels créés manuellement.

Les chercheurs ont donc créé OMNI-EPIC (OMNI with Environments Programmed In Code). Pour leurs expériences, ils ont utilisé un simulateur de physique – un environnement virtuel relativement vierge – et ont alimenté l’archive avec quelques exemples de tâches comme frapper un ballon dans des poteaux, traverser un pont et monter une volée de marches. Chaque tâche est représentée par une description en langage naturel ainsi que par le code informatique correspondant.

OMNI-EPIC choisit une tâche et utilise des LLM pour créer une description et un code pour une nouvelle variante, puis un autre LLM pour décider si la nouvelle tâche est « intéressante » (nouvelle, créative, amusante, utile et ni trop facile ni trop difficile). Si elle est intéressante, l’agent IA s’entraîne à la tâche grâce à l’apprentissage par renforcement, et la tâche est sauvegardée dans les archives, avec l’agent nouvellement formé et si elle a été réussie. Le processus se répète, créant un arbre ramifié de tâches nouvelles et plus complexes avec des agents d’intelligence artificielle capables de les accomplir.

Surprises et découvertes

Il est difficile de mesurer objectivement le succès d’un algorithme comme OMNI-EPIC, mais la diversité des nouvelles tâches et des compétences des agents générées a surpris Jenny Zhang, coauteur de l’article sur OMNI-EPIC, également de l’Université de Colombie-Britannique. « C’était vraiment passionnant », dit Zhang. « Tous les matins, je me réveillais pour vérifier mes expériences et voir ce qui se passait. »

M. Clune a également été surpris. « Regardez l’explosion de créativité à partir de si peu de graines », dit-il. « Il invente le football avec deux buts et un terrain vert, le tir sur une série de cibles mobiles comme le croquet dynamique, la recherche et le sauvetage dans un immeuble à plusieurs salles, la balle au prisonnier, le déblayage d’un chantier et, mon préféré, le ramassage de la vaisselle sur les tables dans un restaurant bondé ! C’est vraiment génial ! » OMNI-EPIC a inventé plus de 200 tâches avant que l’équipe ne mette fin à l’expérience en raison des coûts de calcul.

Les chercheurs soulignent qu’il n’est pas nécessaire de limiter OMNI-EPIC à des tâches physiques. En théorie, il pourrait s’assigner des tâches en mathématiques ou en littérature. Le système pourrait également écrire du code pour des simulateurs qui créent de nouveaux types de mondes, conduisant à des agents d’IA avec toutes sortes de capacités qui pourraient être transférées dans le monde réel.

Pour l’instant, ces systèmes en sont encore au stade de l’invention de nouveaux jeux vidéo. La route vers une IA véritablement créative est encore longue, mais les progrès sont prometteurs. Les chercheurs continuent d’explorer de nouvelles méthodes pour rendre l’IA plus intelligente et plus capable de résoudre des problèmes complexes. Les avancées récentes montrent que l’IA peut apprendre de manière itérative et sélective, imitant le processus de créativité humaine. Cependant, il reste encore beaucoup de travail à faire pour atteindre une IA véritablement créative et capable de surmonter les défis du monde réel.