Des systèmes comme ChatGPT-4 peuvent répondre correctement à 85% des questions des évaluations universitaires. Ces résultats, publiés dans la revue américaine PNAS, ont constitué 'un choc' pour les auteurs de l'étude.

ChatGPT est arrivé sur la scène publique fin 2022, attirant plus de 100 millions d’utilisateurs dès le premier mois. Dans l’enseignement supérieur, la communauté étudiante utilise de plus en plus ce type d'assistants IA (intelligence artificielle), a indiqué vendredi l'Ecole polytechnique fédérale de Lausanne (EPFL) dans un communiqué.

Dans leur étude, les scientifiques de la Faculté informatique et communications se sont penchés sur 50 cours de l'EPFL afin de mesurer les performances actuelles de ces grands modèles de langage (LLM) dans les évaluations de cours de l’enseignement supérieur.

Les cours qui ont été sélectionnés font partie de neuf programmes en ligne, de Bachelor et de Master, et couvrent un vaste ensemble de disciplines, dont l’informatique, les mathématiques, la biologie, la chimie, la physique et la science des matériaux.

'Ces données ont été rassemblées dans un format qui, selon nous, ressemblerait le plus à la manière dont les étudiants communiqueraient ces informations aux modèles, explique Antoine Bosselut, professeur assistant et membre du Centre IA de l'EPFL, cité dans le communiqué.

En se concentrant sur GPT-3.5 et GPT-4, les scientifiques ont utilisé huit stratégies différentes pour produire des réponses. Ils ont constaté que GPT-4 répond correctement en moyenne à 65,8% des questions et peut même fournir la bonne réponse dans au moins une stratégie pour 85,1% des questions.

'Un choc'

'Nous avons été surpris par les résultats. Personne ne s’attendait à ce que les assistants IA obtiennent un pourcentage aussi élevé de bonnes réponses dans autant de cours', indique Anna Sotnikova, co-auteure de l’article.

En effet, 65% de réponses correctes ont été obtenues à l’aide de la stratégie la plus élémentaire, sans connaissances préalables. 'Avec une certaine connaissance du sujet, il a été possible d’atteindre un taux de réussite de 85%, ce qui a vraiment été un choc', ajoute la chercheuse.

Or ces assistants IA ne vont pas empirer, ils vont seulement s’améliorer. La conclusion des scientifiques est que si l’étude était relancée aujourd’hui, les chiffres seraient encore plus élevés.

Adapter l’éducation

'À court terme, nous devrions insister pour que les évaluations soient plus difficiles, non pas dans le sens de la difficulté des questions, mais dans le sens de la complexité de l’évaluation elle-même', suggère Antoine Bosselut. À plus long terme, il est clair que les systèmes éducatifs devront s’adapter.

'Ce n’est que le début et je pense qu’on peut faire une analogie entre les LLM actuels et les calculatrices. Lorsqu’elles ont été introduites, il y avait les mêmes inquiétudes quant au fait que les enfants n’apprendraient plus les mathématiques', relève Beatriz Borges, co-auteure de cette recherche.

'Aujourd’hui, dans les premières phases de l’éducation, les calculatrices ne sont généralement pas autorisées, mais à partir des degrés supérieurs, elles sont présentes, pour effectuer les tâches de niveau inférieur pendant que les étudiants acquièrent des compétences plus avancées', conclut la chercheuse.

