Les tests actuels pour évaluer l’intelligence artificielle seraient déjà dépassés. Des spécialistes de l’IA viennent de faire appel au public pour créer un nouveau questionnaire bien plus difficile, baptisé « le dernier examen de l’humanité ».
De plus en plus, les intelligences artificielles (IA) battent les scores des humains sur les différents tests, que ce soient des examens académiques ou des batteries de tests conçues spécifiquement pour évaluer la performance des IA. L’arrivée du nouveau modèle de langage o1 d’OpenAI bouleverse encore plus ces tests, puisqu’il est désormais capable de raisonnements plus complexes.
Pour tenter de résoudre ce problème, la start-upstart-up Scale AI s’est associée au Center for AI Safety pour créer un test ultime qu’ils ont baptisé « le dernier examen de l’humanité » (Humanity’s Last Exam)). Ce projet a pour but d’évaluer l’IA afin de voir si elle atteint le niveau d’un expert humain.
Des questions soumises par le public
Le test sera composé de 1 000 questions spécialisées dans différents domaines et difficiles pour des non-experts, et dont la réponse ne peut pas être trouvée facilement en ligne. Pour créer ces questions, ils font appel au public. Toute personne, de préférence avec cinq années d’expérience dans un domaine technique ou avec un doctorat, est invitée à envoyer les questions auxquelles l’IA n’arrive pas à répondre correctement pour l’instant. La bonne réponse doit être acceptée par les autres experts du domaine, ne doit pas être subjective, et la question ne doit pas comporter de piège. Une partie des questions sera gardée secrète afin de pouvoir détecter si l’IA se contente simplement de mémoriser les réponses des questions publiques.
Pour soumettre une question, il faut utiliser ce formulaire en ligne avant le 1er novembre. Les auteurs des 50 meilleures questions recevront chacun une récompense de 5 000 dollars, et les auteurs des 500 questions suivantes recevront 500 dollars.