Évaluation de l’efficacité de ChatGPT dans la rédaction d’épreuves d’évaluation pour l’enseignement de la physiologie respiratoire - 12/01/25

Doi : 10.1016/j.rmra.2024.11.621

H. Cherif ^1,^⁎ , S. Mokaddem ^1,², S. Debiche ¹, F. Yangui ¹, R. Baati ², M.R. Charfi ¹
¹ Service de pneumologie, hôpital des forces de sécurité intérieure, Tunis, Tunisie
² Section de physiologie, faculté de médecine de Tunis, université Tunis Elmanar, Tunis, Tunisie

^⁎Auteur correspondant.

Resumen

Introduction

Les outils d’intelligence artificielle, tels que ChatGPT, ont montré un potentiel prometteur pour générer des supports éducatifs. Cependant, leur efficacité dans l’élaboration d’épreuves d’évaluations n’a pas été pleinement étudiée. Cette étude vise à évaluer l’aptitude de ChatGPT à rédiger des questions à choix multiples (QCM) pour une épreuve de physiologie respiratoire.

Méthodes

Pour cette étude, nous avons demandé à ChatGPT de rédiger des QCMs destinés aux étudiants de première année médecine, sur le thème de la bronchomotricité. ChatGPT a été chargé de rédiger trois questions pour chaque objectif éducationnel, en s’appuyant sur sept objectifs éducationnels du cours de physiologie. Nous avons donné à ChatGPT 13 instructions de rédaction à suivre. Pour évaluer la qualité des questions générées, deux enseignants en physiologie ont examiné chaque question en utilisant les 13 critères. Chaque critère était noté de la manière suivante : une note de 1 si les deux évaluateurs considéraient que le critère était rempli, une note de 0 si les deux évaluateurs considéraient que le critère n’était pas rempli, et une note de 0,5 en cas de discordance entre les évaluateurs.

Résultats

Sur les 21 QCM, 19 ont obtenu un score supérieur à 50 %. La moyenne des scores obtenus par les questions était de 9,19 sur un total de 13, indiquant que la majorité des critères étaient remplis pour chaque question. Les critères les plus fréquemment remplis étaient « Les réponses sont de longueur similaire » et « Il n’y a pas de formulation négative des phrases » avec des moyennes respectives de 1 et 0,98. Les critères « La question répond à l’objectif éducationnel » et « Les proportions entre longueur d’énoncé et réponse sont préservées » ont également montré de bons résultats avec des moyennes de 0,90 et 0,92 respectivement. Le niveau de difficulté des questions était jugé de premier degré pour toutes les questions.

Conclusion

ChatGPT semble être un bon outil pour créer des épreuves d’évaluations à condition d’établir au préalable des instructions claires et précises.

El texto completo de este artículo está disponible en PDF.

Esquema

Déclaration de liens d’intérêt

Exportación

Vol 17 - N° 1

P. 302 - janvier 2025 Regresar al número

Artículo precedente

Influence de la VNI à domicile sur l’évolution clinique et gazométrique des patients IRC
H. Yassine, S. Bounhar, A. Kendil, M. Ijim, O. Fikri, L. Amro

| Artículo siguiente

Évaluation de la condition physique lors d’une consultation de routine chez les asthmatiques modérés à sévères
O. Ritter, D. Peres, E. Grisez, M. Bouhaddi, N. Tordi, C. Barnig

¿Ya suscrito a @@106933@@ revista ?

conectar o crear una cuenta