Dans le monde en constante évolution de l’intelligence artificielle, les chercheurs sont toujours à la recherche de nouvelles méthodes pour évaluer les capacités des modèles d’IA. Récemment, des chercheurs du Hao AI Lab de l’Université de Californie à San Diego ont trouvé une solution innovante : utiliser le célèbre jeu vidéo Super Mario Bros. pour tester l’adaptabilité et la résolution de problèmes des IA.

Un défi ludique pour l’IA
L’idée d’utiliser des jeux vidéo pour évaluer les performances des IA n’est pas nouvelle. Auparavant, le jeu Pokémon était souvent utilisé comme référence difficile pour les modèles d’IA. Cependant, Super Mario Bros. offre un défi différent, nécessitant des réactions en temps réel et une planification stratégique pour progresser dans les niveaux.
Comment ça marche ?
L’expérience n’a pas été réalisée sur le jeu original de 1985, mais sur un émulateur qui incluait GamingAgent via GitHub. Ce dernier permettait de donner des instructions de base et des images du jeu à l’IA, qui pouvait ensuite générer des entrées en code Python pour contrôler Mario. Les modèles de langage devaient apprendre à jouer, planifier des manœuvres complexes, et élaborer des stratégies pour aller le plus loin possible dans les niveaux.

Résultats surprenants
Les résultats ont été variés mais révélateurs. Aucun modèle de langage n’a réussi à terminer le premier niveau de Super Mario Bros. avec ses trois vies. Cependant, certains modèles ont montré des performances impressionnantes. Par exemple, le modèle Claude 3.7 Sonnet d’Anthropic a presque réussi à terminer le niveau, dépassant Claude 3.5. En revanche, des modèles comme Gemini 1.5-Pro de Google et GPT-4o d’OpenAI ont rencontré de grandes difficultés à progresser dans le jeu.

L’IA humaine vs. l’IA raisonnée
Le Hao AI Lab a noté que les modèles de raisonnement, comme o1 d’OpenAI, qui procèdent étape par étape pour trouver la meilleure solution, manquent d’anticipation et de spontanéité. Ces modèles ont obtenu de moins bons résultats que des IA « non raisonnées » comme Claude 3.7, qui se rapprochent davantage de la pensée humaine.
L’utilisation de Super Mario Bros. comme outil d’évaluation pour les modèles d’IA ouvre de nouvelles perspectives pour comprendre et améliorer les capacités d’adaptation et de résolution de problèmes des IA. Alors que les chercheurs continuent d’explorer ces méthodes, il est clair que les jeux vidéo peuvent offrir des environnements riches et dynamiques pour tester les limites de l’intelligence artificielle.