8.6 Les tests adaptatifs

8.6 Les tests adaptatifs

Les tests informatisés offrent certains avantages sur les tests papier-crayon et sur les interviews: précision des mesures, standardisation des conditions expérimentales et enregistrement automatique des données. Par contre, lorsque le test est conduit par une personne, celle-ci peut adapter les questions, passer des items inutiles ou décider de poser certaines questions plus précises afin d'affiner le diagnostic. Un test adaptatif est capable de sélectionner dynamiquement des items en cours d'interaction. Certains systèmes sont même capables de générer des items. Par exemple, le système IDEBUGGY (Burton, 1982) est un système de diagnostic des causes d'erreur dans la soustraction écrite. Certaines erreurs permettent plusieurs explications. Dans ce cas, le programme génère de nouveaux calculs qui lui permettent de faire un choix entre les hypothèses candidates.

Nous traiterons ici surtout des stratégies de sélection des items. Celles-ci consistent à ne pas présenter les items qui n'apporteront plus d'information pertinente par rapport à l'objectif du test. Ces stratégies permettent de réduire le temps de passation des tests et de sauvegarder la motivation du sujet. Quoi de plus frustrant en effet que de devoir continuer à répondre à des questions qu'on a aucune chance réussir ? Ces stratégies permettent également d'économiser des items: dans le cas de mesures répétées, il peut être intéressant de garder un maximum d'items 'vierges' pour des passations ultérieures.

On distingue deux stratégies de sélection des items.

Dans la stratégie ascendante, on ne présente pas les items supérieurs en difficulté à celui que le sujet n'a pas réussi, puisqu'il n'a en théorie aucune chance de réussir un item plus difficile (si l'épreuve est bien construite).
La stratégie descendante consiste à commencer par les items les plus difficiles et à proposer des items plus faciles jusqu'au moment où le sujet réussit. On suppose qu'il n'échouera pas ensuite à des items plus faciles.

Le choix d'une stratégie montante ou descendante dépend de l'estimation a priori du niveau du sujet. Dans un pré-test, celui-ci n'est généralement pas supposé maîtriser les compétences mesurées. Aussi la stratégie ascendante permettra un gain de temps maximum. Dans un post-test, par contre le sujet est censé maîtriser les compétences évaluées. La stratégie descendante sera alors préférable.

Les stratégies ascendante et descendante peuvent être mises en oeuvre à un plus haut niveau, celui des objectifs. Si le sujet échoue la partie de l'épreuve concernant l'objectif X et que l'objectif X est un pré-requis indispensable à l'objectif Y, il y a peu de chances qu'il maîtrise l'objectif Y. Inversement, si un élève maîtrise l'objectif Y, il est peu probable qu'il ne maîtrise pas l'objectif X. La relation de pré-requis entre deux objectifs est souvent plus facile à établir qu'un rapport de difficulté supérieure entre deux items.

Enfin, certaines stratégies de sélection appliquent les méthodes de tri. Considérons un test comportant 100 items classés par ordre croissant de difficulté. On sélectionne d'abord l'item central, de difficulté 50. Si le sujet échoue, on ne considère plus que le segment 0-50 et on recommence la procédure. Si l'élève réussit, on considère le segment 25-50 et on répète la procédure jusqu'au moment où l'on obtient une précision de mesure considérée comme acceptable. Cette stratégie permet de minimiser le nombre moyen d'items nécessaires pour identifier le niveau du sujet. Elle exige cependant une mise au point minutieuse de la batterie d'items. La précision nécessaire quant à l'évaluation du niveau de difficulté des items ne peut en effet se faire qu'en expérimentant au préalable chaque item auprès de très nombreux sujets.

D'autres stratégies de sélection des items ont été mises au point. Welch & Frick (1993) utilisent le théorème de Bayes afin d'estimer la probabilité a priori que le sujet échoue ou réussisse un item. Leur approche est intéressante car elle repose sur une estimation de l'erreur de diagnostic. En effet, l'attribution du label 'réussi' consiste généralement à comparer le score du sujet à un seuil arbitraire, par exemple 85%. Or le sujet peut maîtriser une compétence dont il a réussi 84% d'items. A partir d'un échantillon d'environ 50 sujets, ces auteurs établissent, pour chaque item, les probabilités suivantes:

qu'il réponde correctement alors qu'il maîtrise l'objectif (P1);
qu'il réponde incorrectement alors qu'il maîtrise l'objectif (P2);
qu'il réponde incorrectement alors qu'il ne maîtrise pas l'objectif (P3);
qu'il réponde correctement alors qu'il ne maîtrise pas l'objectif (P4);

Prenons un exemple particulier. Voici les statistiques obtenues par ces auteurs lors de leur pré-expérimentation:

Probabili   P1    P2    P3    P4   
té                                 
Items 1    .92   .08   .47   .53   
Item 23    .81   .19   .24   .76   
Items 63   .89   .11   .65   .35

L'hypothèse de départ est nulle puisqu'on ignore si le sujet maîtrise la compétence. La probabilité a priori d'une maîtrise (P+) est donc de = .5 et probabilité à priori d'une non-maîtrise (P-) a la même valeur. Si le sujet échoue à l'item 63, ces hypothèses sont mises à jour selon le théorème de Bayes:

         Probabilité a    Probabilité d'une         Probabilité a       
         priori           erreur à item X           posteriori          
Maîtris  .5               .11 (P2)                  239                 
e                                                                       
Echec    .5               .35 (P4)                  761

Ces indices de probabilité a posteriori deviennent les nouveaux indices de probabilité a priori. Si le sujet réussit ensuite l'item 23, on obtient:

         Probabilité a    Probabilité d'une         Probabilité a       
         priori           erreur à item X           posteriori          
Maîtris  .239             .81 (P1)                  .515                
e                                                                       
Echec    .761             .24 (P4)                  .481

Le test sera conduit jusqu'au moment où une de ces probabilités atteint un seuil fixé par le concepteur du test, par exemple .95. La gestion du test est réalisée par un petit système expert. Il faut souligner que ces méthodes de sélection des items reposent sur le postulat que les items sont indépendants les uns des autres, qu'il n'y a pas d'apprentissage en cours de test. En réalité, on ne peut totalement prévenir un auto-apprentissage, même si le concepteur évite de fournir le moindre feed-back.