Rechtvaardig toetsen (4)

Tekst Dominique Sluijsmans
Gepubliceerd op 16-06-2023
Beeld Human Touch Photography

Een curriculum ontwikkelen is mooi, maar er is in het hbo maar een beperkt aantal uren beschikbaar om studenten te onderwijzen en tot leren te brengen. En hoe zorg je dat toetsing zorgvuldig en rechtvaardig gebeurt? Dominique Sluijsmans legt het uit in deel 4 van een serie over curriculumontwikkeling.

Toetsing is het proces dat ervoor moet zorgen dat beslissingen over bekwaamheid van studenten zorgvuldig en rechtvaardig worden genomen. Opleidingsteams op hogescholen hebben vaak veel vragen over hoe toetsing beter kan. De reden? Omdat ze toetsing beter willen laten aansluiten op het leerproces. Of omdat zich onnavolgbare of discutabele toetspraktijken voordoen, waar de student dan meestal de dupe van is.

Het is bekend dat toetsing sturend werkt (‘Komt dit op de toets of het tentamen?’, ‘Moeten we dit kennen?’) en leidt tot studeeraanpakken voor de korte baan. Studenten of leerlingen bereiden zich bijvoorbeeld voor op het toetsformat (‘hoe bereid je een MC-toets voor?’), in plaats van te investeren in echt begrip. Maar het is een uitdaging om een curriculum te ontwikkelen waarin toetsing dienend is aan dat curriculum in plaats van sturend. Net als bij de doelen, bestaat het risico dat de driehoek van constructieve afstemming omvalt als de toetsing niet in evenwicht is met de doelen en het onderwijs. Bijvoorbeeld als het toetsprogramma niet studeerbaar is (veel toetsen in korte tijd), te veel gericht is op voortdurende selectie, niet organiseerbaar of betaalbaar is (te arbeidsintensieve toetsvormen). Maar dat evenwicht is wel haalbaar.

We weten uit de wetenschap dat één meting geen meting is. Toch vereisen toetsprogramma’s doorgaans dat studenten een toets met een voldoende afsluiten om studiepunten te krijgen (het zogenoemde conjunctieve systeem). Maar de conclusie ‘voldoende’ of ‘onvoldoende’ is lang niet altijd terecht. Er kan sprake zijn van zweten-weten-vergeten (even stampen voor de toets), en bij elke toets zullen (mede door de selectie van vragen) studenten onterecht zakken of slagen. Sterker nog, wanneer een toets onder precies dezelfde omstandigheden opnieuw wordt afgenomen, kan het resultaat zomaar anders zijn, bijvoorbeeld niet een 5 maar een 6 (Vermeulen et al., 2012; Wiliam, 2014).

Voor valide beslissingen zijn dus meer metingen nodig, liefst met een variatie in toetsvormen (Sluijsmans, 2013); niet alleen omdat elke toets zijn beperkingen heeft, maar ook omdat een toets meestal onvoldoende informatie oplevert om te kunnen beoordelen of een student de gestelde doelen heeft bereikt. Voor een mooi overzicht van toetsvormen zie Van Berkel et al. (2014).

Een compensatoir toetssysteem kan deze nadelen het hoofd bieden. Studenten mogen dan (onder vooraf gestelde voorwaarden) onvoldoendes op vakken compenseren met hogere cijfers op andere vakken. Deze gemiddelde beoordeling vindt plaats op een graduele schaal en niet, zoals bij een conjunctief systeem, met telkens per vak de beoordeling ‘gezakt’ of ‘geslaagd’.

Het is een gegeven dat meetfouten ertoe kunnen leiden dat studenten bij iedere toets iets hoger of iets lager kunnen scoren dan zij verdienen; het middelen van cijfers zwakt het effect van meetfouten af en verhoogt de betrouwbaarheid (Vermeulen, et al., 2012). Onderzoek laat zien dat studenten bij compensatoir toetsen in het eerste jaar bijvoorbeeld een hoger rendement of een kortere studieduur hebben dan bij conjunctief toetsen. Toch leveren zij in de latere fase van hun studie dezelfde prestaties als studenten met een conjunctief programma (Arnold, 2011; Vermeulen et al., 2012).

Ook het beperken van het aantal herkansingen draagt bij aan studiesucces. Het leidt (vaak in combinatie met compensatoir toetsen) tot een betere doorstroom van studenten (zie onder anderen Arnold, 2011; Arnold & Van den Brink, 2009; Baars et al., 2021; Cohen-Schotanus, 1995; Jansen, 1996; Kickert, 2020). Minder herkansingen en herkansingen op ongunstige tijdstippen (bijvoorbeeld in de zomervakantie), stimuleert studenten om zich beter voor te bereiden op het eerste toetsmoment in plaats van dat te zien als een verkenning van wat er wordt gevraagd.

Cesuur

Studenten moeten wel weten hoe en wanneer er kan worden gecompenseerd, en hoe de grens tussen zakken en slagen wordt bepaald. Op hoofdlijnen kan deze cesuur op drie manieren worden bepaald (zie figuur 3 voor een visualisatie hiervan).

Figuur 3. Het normgericht, criteriumgericht en ipsatief toetsen

Bij een normgerichte toets worden de individuele resultaten afgezet tegen het gemiddelde van de groep (zie de zogenaamde Gauss-curve meest links in figuur 3, waar de rode balk verwijst naar de gemiddelde score van de groep). Hoe goed een student presteert, is daarmee afhankelijk van de groep. Het is dus moeilijk een uitspraak te doen over de prestaties van een individu. Normgerichte toetsen worden vooral ingezet wanneer we willen selecteren. Dat kan worden verdedigd in het eerste studiejaar (wie is écht geschikt voor de opleiding?), maar zelfs dan is dat de vraag: de student heeft immers al de juiste toegangskaart voor de hbo-studie.

Bij een criteriumgerichte toets worden de resultaten afgezet tegen een vooraf bepaalde standaard, bijvoorbeeld 70% van de vragen moeten goed zijn beantwoord voor een voldoende (zie deze aanpak in het midden van figuur 3, waar de rode balk verwijst naar de te behalen standaard en de verticale zwarte lijn naar een bepaald criterium). Dit past goed bij de hbo-context waarin studenten een bepaalde kwaliteitsstandaard moeten bereiken.

Bij een ipsatieve toets wordt op individueel niveau gekeken naar de vooruitgang ten opzichte van een vorig toetsmoment, waarbij een docent bepaalt of deze vooruitgang voldoende is (zie de trap meest rechts in figuur 3, waar de rode balk verwijst naar voortgang van een individuele student op een bepaald criterium). Deze wijze van toetsing heeft vooral een didactische en pedagogische functie, bijvoorbeeld het creëren van succeservaringen in het leerproces (Malecka & Boud, 2021).

Bovenstaande interventies zijn goed in het licht van toetskwaliteit, studeerbaarheid en studiesucces, maar garanderen nog geen constructieve afstemming met het curriculum. Om dat te realiseren is helderheid nodig over waar de student naar toewerkt en over hoe het proces of product dat de student maakt voor de beoordeling, er idealiter eruitziet. Het helpt als docenten met veel vak- en beoordelaarsexpertise voorbeelden van studentwerk kunnen vergelijken en ranken (ook wel comparatieve beoordeling genoemd). Het kan gaan om afstudeerwerken, maar ook om ‘kleinere’ producten zoals een analyse, berekening, handeling of presentatie uit eerdere jaren. Zo ontstaat inzicht in de gewenste kwaliteit van het ‘bewijsmateriaal’. Dit kwaliteitsbesef helpt vervolgens bij het vormgeven van leeractiviteiten en processen van toetsing (Kneyber et al., 2022). Daarover meer in deel 5 van deze serie.

Dit is deel 4 van een ingekorte en bewerkte versie van de lectorale rede die Dominique Sluijsmans hield op de studiemiddag ‘Samen werken aan onderwijskwaliteit’ op 23 februari 2023 aan Hogeschool Rotterdam.

Bronnen:

Bekijk de bronnen bij de rede.

Verder lezen

1 Een permeabel curriculum (1)
2 Samenhang en een goede bril (2)
3 Een methodische aanpak: backward design (3)

Een ogenblik geduld...

BLONZ

BLoggers over OnderwijsoNderZoek: onderwijswetenschappers vertellen over hun onderzoek en over de link met de praktijk.

Een permeabel curriculum (1)

21-03-2023
Dominique Sluijsmans - Hoe toekomstbestendig moet een curriculum in het hbo zijn en hoeveel ruimte moet het bieden aan individuele studenten?

Blog