Que dit la recherche ?

Flux RSS

Utilité de l’informatique dans l’évaluation par QCM

Résumé :
Pour un enseignant, proposer des questions à choix multiples (QCM) à ses élèves implique un temps préalable de préparation parfois un peu long. Ce type de matériel pédagogique est pourtant un très bon outil d’évaluation formative et sommative dès lors qu’il est convenablement élaboré. L’informatisation des QCM fait aujourd’hui ses preuves grâce aux possibilités technologiques de collecte automatique des actions des apprenants, de stockage et de traitement rapide d’un grand volume d’informations. Différentes recherches nous permettent de percevoir les avantages d’une telle informatisation.

Recommandations :

  • Bien cibler l’objectif pédagogique visé (évaluation sommative, remédiation, etc.) dans le choix du système.
  • Dans la construction d’un QCM, bien réfléchir à formulation des questions, à la cohérence des items de réponses proposés et aux connaissances et compétences qui seront nécessaires à l’élève pour y répondre.
  • Multiplier les modalités d’évaluation.

Voir aussi :

par Sonia Mandin *

Pourquoi bien construire un QCM ?

Le type et le niveau des compétences mesurées dans des QCM dépendent fortement du contenu et de la forme des questions-réponses proposées. D’une part, les questions peuvent être plus ou moins difficiles (McAlpine, 2002) ou même induire en erreur (Johnstone, 2003). D’autre part, il faut tenir compte du fait que les différents constituants des QCM affectent le traitement cognitif nécessaire pour y répondre. Par exemple, selon Williams (2006), des réponses incluant une assertion et une justification favorisent des traitements de plus haut niveau. Il importe aussi de savoir si les questions sont bien nouvelles pour l’apprenant et si le traitement cognitif escompté a bien été effectué. Lorsque les apprenants ont déjà été exposés aux questions, ils peuvent potentiellement y répondre par simple souvenir de leur expérience passée. Il n’y a alors pas de réelle augmentation des compétences visées (Montepare, 2005). Enfin, il est à noter que l’ordre de présentation des questions influe sur la perception de la difficulté du questionnaire (Pettijohn et Sacco, 2007).

Informatisation du processus de construction des QCM

L’élaboration des QCM peut être complètement ou partiellement automatisée. Dans le cas d’une automatisation totale, il est nécessaire de se doter de programmes permettant de générer tout autant les questions que les items de réponses à proposer. Différents algorithmes sont possibles et combinables. Ils servent généralement à définir des constituants très précis des QCM. A titre d’exemple, citons les travaux de 2014 de 4 chercheurs taïwannais, Huang, Tseng, Sun et Chen. Ils ont cherché à générer automatiquement, à partir d’un algorithme déjà connu et validé, des QCM permettant d’évaluer la compréhension de vidéos pour l’apprentissage de l’anglais à des lycéens. Les questions sont introduites par des pronoms du type What, When, Who ou How many. Dans cette recherche, la problématique porte sur des items de réponse servant de distracteurs, c’est-à-dire des réponses erronées destinées à induire l’apprenant en erreur. Deux vidéos ont été utilisées. Pour chacune d’elles, les réponses à 5 questions générées automatiquement pour 40 lycéens taïwanais ont été comparées aux réponses des mêmes étudiants à 5 questions créées par des enseignants. Les résultats montrent des corrélations positives mais modérées entre les évaluations aux questions automatiquement générées et les évaluations aux questions des enseignants. Il existe donc un lien, même peu élevé, entre les réponses des élèves aux deux types de questions qui peut laisser penser que l’évaluation de ces derniers est possible via des questions générées automatiquement. Il faut aussi souligner que les élèves trouvaient les questions automatiquement générées compréhensibles, utiles et bien reliées au sujet.

D’autres chercheurs se sont orientés sur la génération semi-automatique d’exercices. Asker (Authoring for aSsessing Knowledge genErating exeRcices) est un exemple d’application servant à la fois à la création et à la diffusion de QCM. D’autres types d’exercices peuvent aussi être générés comme des appariements, des groupements et des questions à réponse ouverte courte (QROC). L’application est développée par une équipe de chercheurs du LIRIS (Lyon-1). Un article récent de 2015 rédigé par Marie Lefèvre et ses collègues la décrit. La génération semi-automatique des exercices se fait à partir de méta-modèles (modèle d’un niveau supérieur d’abstraction) qui décrivent les éléments génériques constitutifs du type d’exercice (énoncés, questions, réponses, etc.). A partir de ces méta-modèles, l’enseignant peut créer un modèle d’exercice qui spécifie des éléments plus précis comme le libellé de la question (e.g. « a multiplié par b est égal à ? ») lié au domaine d’application (e.g. les nombres a et b doivent être compris entre 0 et 10). Ainsi, Asker peut-il instancier plusieurs QCM en faisant varier les valeurs prises par a et b dans le libellé de la question. Cette application peut être utilisée à tous niveaux scolaires même si l’expérimentation décrite dans l’article ne concerne que des étudiants en première année de licence Mathématiques et Informatique. Un ensemble de modèles d’exercices a été réalisé par des enseignants pour alimenter la base de modèles et Asker est proposé aux étudiants pour s’autoévaluer avant chaque TD. 92 étudiants sur les 124 inscrits ont ainsi souhaité utiliser l’application. Ils ont réalisé sur l’année près de 7 000 exercices. 34 étudiants utilisant Asker ont ensuite répondu à un questionnaire sur l’usage qu’ils ont eu de la plateforme. Les réponses montrent que l’utilisation du système se fait sur des durées de 5 à 20 min par session et que 70 % ont eu un usage hebdomadaire du système durant toute l’année. Les objectifs poursuivis avec l’utilisation d’Asker sont, pour la quasi-totalité des étudiants (91 %), la préparation des questions à poser au TD suivant. 44 % et 41 % d’entre eux estime aussi le système utile pour comprendre les concepts abordés en cours et identifier ceux non compris. Cette expérimentation d’Asker montre la possibilité de générer semi-automatiquement des exercices mais aussi l’utilité d’exercices de type QCM dans le suivi par l’étudiant lui-même de son apprentissage.

Informatisation du processus de passation des QCM

Dans Asker (voir ci-dessus), les QCM sont instanciés automatiquement à partir de modèles prédéfinis. Toutefois, les étudiants doivent eux-mêmes faire le choix des types de QCM auxquels ils souhaitent répondre. D’autres applications existent qui permettent de proposer des QCM en fonction du parcours de l’apprenant dans le système. Nous prendrons le cas d’un outil de personnalisation de l’apprentissage sur lequel ont travaillé Mandin, Guin et Lefevre en 2015 dans le cadre du projet Cartographie des savoirs (http://www.cartodessavoirs.fr/). Cet outil exploite les réponses d’élèves d’école élémentaire à des QCM qui leur sont automatiquement proposés par le système selon des règles pédagogiques définies par l’enseignant. Dans ce système, les QCM et certains items de réponses sont liés à une ontologie complexe de savoirs institutionnels (Ontoprax de Chaachoua et son équipe, 2013). Ainsi, les réponses des apprenants permettent-elles progressivement d’estimer le niveau scolaire des élèves pour les savoirs directement liés aux questions posées mais aussi pour un ensemble de savoirs que l’élève est supposé avoir mobilisés en répondant aux questions. Par ailleurs, le système peut proposer des QCM aux élèves en fonction des réponses précédemment fournies (et donc aussi de l’évaluation de la maîtrise de chaque savoir par l’élève) et cela dans des buts divers comme la réalisation d’un bilan évaluatif ou de la remédiation. Chaque but implique de suivre une stratégie pédagogique spécifique qui sera décrite sous forme de règles par l’enseignant. C’est l’application de ces règles qui permettra ensuite au système de sélectionner les activités à proposer à l’élève. L’outil est encore en test et la publication des résultats d’expérimentations à venir.

Informatisation du processus d’évaluation des QCM

Les QCM réalisés et répondus, il reste encore à traiter les réponses. Nous avons vu en introduction combien l’évaluation des apprenants à travers les QCM n’est pas chose facile. Elle peut donner simplement lieu à une note en fonction de la quantité de réponses collectées, justes et fausses. Elles peuvent aussi être mises en relation avec d’autres modalités d’évaluation de l’apprenant afin d’infirmer ou de confirmer la fiabilité d’un diagnostic ad hoc. Michelet et Luengo ont par exemple testé en 2012 un modèle de diagnostic de connaissances (DiagElec) utilisant des QCM pour détecter des contradictions dans les connaissances en électricité des élèves. Elles ont réalisé une expérimentation auprès de 25 collégiens en 4e et de 35 lycéens en 2nde. Tout se passe sur ordinateur. Dans cette expérimentation, les élèves répondent à des QCM sur leurs connaissances, résolvent des problèmes dans une application simulant les environnements de TP (TPElec) et/ou des activités de formulation. Les 3 modalités évaluatrices doivent permettre de mettre en évidence des contradictions (i.e. des réponses/productions tantôt correctes et tantôt pas) entre ce que les élèves cochent et ce qu’ils réalisent ou rédigent. L’observation des contradictions est à la base d’un diagnostic par le système de la cause des erreurs dans le but notamment de faciliter une remédiation ultérieure. Les diagnostics de 18 des élèves expérimentés, établis par DiagElec, sont comparés à ceux de 3 enseignants. L’objectif est de comparer l’effet des différentes modalités évaluatrices proposées et des contradictions qui peuvent être observées sur l’évaluation des élèves entre les évaluations DiagElec et les évaluations humaines. Les résultats montrent des contradictions d’autant plus nombreuses que les modalités sont combinées (e.g. en évaluant les élèves via un QCM et sur TPElec). Toutefois, pour l’évaluation des élèves, les enseignants accordent moins de poids que le système aux QCM quand les réponses données à ces derniers sont en contradiction avec les réponses à d’autres types d’exercices (résolution de problème avec TPElec ou activité de formulation). Le QCM sert aux enseignants tout au plus à confirmer ce qu’ils ont observé via d’autres types d’activités.

Les expériences décrites montrent finalement bien qu’il est possible aujourd’hui de proposer efficacement des QCM aux élèves sans pour autant que l’enseignant ait à gérer seul toutes les étapes, de la production à l’analyse des réponses. Les modèles informatiques sous-jacents peuvent certes encore être perfectionnés mais les outils existants offrent déjà de nombreuses possibilités pour affiner et contrôler des diagnostics d’apprentissage ou personnaliser les enseignements. Nous n’attendons plus que leur exploitation dans des applications commercialisées.

* Sonia Mandin - Titulaire d'un doctorat en sciences de l'éducation

date de publication : 10/02/2016

Flux RSS
Références bibliographiques :
Chaachoua H., Ferraton G. et Desmoulins C. (2013), Utilisation du modèle praxéologique de référence dans un environnement informatique d’apprentissage humain, 4e Congrès international de la Théorie anthropologique du didactique, 2013, Toulouse.
Huang Y. T., Tseng Y. M., Sun Y. S. et Chen M. C. (2014), http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=6901478&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D6901478
Johnstone A. (2003), Effective practice in objective assessment. The skills of fixed response testing, Hull, UK: LTSN Physical Sciences
Lefevre M., Guin N., Cablé B. et Buffa B. (2015), ASKER : un outil auteur pour la création d’exercices d’auto-évaluation, EAEI 2015 : http://liris.cnrs.fr/nathalie.guin/EAEI/EAEI_2015_submission_4.pdf
Mandin S., Guin N. et Lefevre M. (2015), Modèle de personnalisation de l’apprentissage pour un EIAH fondé sur un référentiel de compétences, EIAH 2015 : https://medihal.archives-ouvertes.fr/LIRIS/hal-01177846v1
McAlpine M. (2002), Principles of assessment, Loughborough University: CAA Centre: http://caacentre.lboro.ac.uk/dldocs/Bluepaper1.pdf
Michelet S. et Luengo V. (2012), Prise en compte des contradictions intra-apprenant dans le diagnostic, Etude de cas : DiagElec un diagnostic informatique, STICEF, 19 : http://sticef.univ-lemans.fr/num/vol2012/11-michelet-individualisation/sticef_2012_NS_michelet_11.htm
Montepare J.-M. (2005), “A self-correcting approach to multiple choice tests”, Observer, 18(10) : http://www.psychologicalscience.org/index.php/publications/observer/2005/october-05/a-self-correcting-approach-to-multiple-choice-tests.html
Pettijohn T. F. et Sacco M. F. (2007), Multiple-choice exam question order influences on student performance, completion time, and perceptions, Journal of Instructional Psychology : http://www.thefreelibrary.com/Multiple-choice+exam+question+order+influences+on+student...-a0170156969
Williams J. B. (2006), “Assertion-reason multiple-choice testing as a tool for deep learning: a qualitative analysis”, Assessment & Evaluation in Higher Education, 31(3), 287-301.

 

Commenter