Verslag van de expert-module 3 op 16 februari: Toetsanalyse. Check, dubbel-check!

Op 16 februari vond in de Drienerburght de derde expertmodule Toetsing voor examencommissies plaats, aangeboden door de Onderwijskundige Dienst en ontwikkeld en verzorgd door Joke Oosterhuis (DAAD Onderwijsadvies) i.s.m. Helma Vlas (S&O-OD).
Veertien deelnemers afkomstig van diverse faculteiten volgden deze module.
Het programma van de workshop kende vier onderdelen: (1) opfrissen van onderdelen uit de Expertmodule Toetsconstructie (een goed begin is het halve werk), (2) toetsanalyse aan de hand van een casus, (3) niveau van afstudeertrajecten en (4) toetsinformatie voor leden van examencommissies.

Kwaliteitseisen voor toetsing

De workshop startte met de vraag om op post-its aan te geven wat er zoal mis kan gaan bij toetsing. Die vraag zorgde voor heel wat post-its; er blijkt heel veel mis te kunnen gaan!
Vervolgens werd iedere deelnemer gevraagd de ‘missers’ onder te brengen bij de rubrieken ‘validiteit’, ‘betrouwbaarheid’, ‘transparantie’ en ‘efficiëntie’, om daarmee aan te geven welke kwaliteitseis met name geschonden werd. Op het laatst werd de categorie ‘overig’ nog toegevoegd, om ook organisatorische problemen en calamiteiten een plek te geven, zoals: zieke surveillant, docent is vergeten het tentamen te maken, brand, typefouten in het tentamen en geluidshinder. Aan de hand van de ‘missers’ werden de belangrijkste toetscriteria - validiteit, betrouwbaarheid, transparantie en efficiëntie - besproken. Het rubriceren bleek niet altijd eenvoudig en eenduidig. Waar breng je bijvoorbeeld “het tentamen bevat te veel vragen van het tentamen van vorig jaar” nu onder? Of “te veel vragen gezien de beschikbare tijd”?
De vraag of examencommissies dienen te letten of de efficiëntie van toetsing , maakte heel wat tongen los. Over het algemeen was de mening dat het wel van belang is dat de toetsing efficiënt gebeurt, maar dan meer voor de onderwijsorganisatie. Hier wordt door de docenten en het onderwijsmanagement sowieso wel op gelet. Het kan wel een punt van aandacht worden indien bijvoorbeeld toetsing uit efficiëntie-overweging alleen nog maar uit MC-tentamens bestaat en op die manier de leerdoelen niet allemaal worden getoetst of niet op het juiste niveau.

Aandacht voor kwaliteit vooraf

Joke Oosterhuis startte in haar presentatie met een korte terugblik op de inhoud van module 2. Zij beklemtoonde dat het toetsproces feitelijk een ontwerpproces is. De basis voor het ontwerpen van toetsen vormen de leerdoelen van een vak en het niveau dat behaald moet worden. Met toetsen wordt gemeten inhoeverre de studenten de leerdoelen bereikt hebben. Hoe helderder en specifieker de leerdoelen en het niveau zijn geformuleerd, des te makkelijker is het ontwerpen van een toets. Een goed begin is immers het halve werk. Toetsmatrijzen zijn praktische hulpmiddelen voor de toetsconstructie (zie voorbeeld van een toetsmatrijs). Het is eigenlijk niets anders dan een overzicht van de leerdoelen (soms onderwerpen, maar leerdoelen is beter) die je als docent wilt toetsen en een indicatie van het niveau waarop je die doelen wilt toetsen en welke weging ieder van die doelen krijgt. Door een dergelijke ‘blauwdruk’op te stellen zie je of de toets een goede afspiegeling is van de doelen (validiteit, representativiteit) en door de blauwdruk steeds weer te gebruiken weet je zeker dat een volgende toets (bijvoorbeeld de herkansing) soortgelijk is.

Samen met een collega een tentamen of opdracht opstellen of een collega-docent vragen eens goed naar jouw tentamen of opdracht te kijken (peer review), is ook een middel dat bijdraagt aan de kwaliteitsbewaking vooraf. Net als het gevolgd hebben van een training ‘toetsconstructie’, waardoor je als docent beter weet waar je op moet letten bij het formuleren van de vragen bijvoorbeeld.

Aandacht voor kwaliteit achteraf

Bij toetsanalyse, aldus Oosterhuis, gaat het er om achteraf te beoordelen of de toetsing zorgvuldig is gebeurd (zie: Checklist kwaliteit toetsen of Zelfevaluatie-instrument voor toetsen). Achteraf kan gekeken worden naar de validiteit van de toetsen. Was het tentamen representatief voor de leerstof? Zijn de leerdoelen op een passend niveau getoetst (Indien bijvoorbeeld een leerdoel luidt: “De student kan… toepassen” en met de toetsvragen alleen gevraagd wordt naar feitjes, dan is dat niet het geval.)? Aan de hand van een toetsmatrijs is dit vrij snel vast te stellen (waarbij het uiteindelijke tentamen dan uiteraard wel dient te voldoen aan de toetsmatrijs).

Aan de hand van psychometrische gegevens kan iets gezegd worden over de betrouwbaarheid van de toets . Cronbach’s α geeft aan in hoeverre de vragen met elkaar samenhangen. Dit wordt getoetst op basis van de onderlinge correlatie van de verschillende items. De p-waarde geeft de moeilijkheidsgraad van een item aan en de a-waarden geven de percentages studenten aan die een fout antwoord of afleider (bij multiple choice vragen de foute antwoorden) hebben gekozen. De item rest correlatie (Rir waarde) of de Item totaal correlatie (Rit waarde) geven aan of een item een duidelijk onderscheid maakt tussen de hoogscoorders en de laagscoorders.

Aan de hand van een casus werden deze begrippen toegelicht en werd aangegeven wat de reparatiemogelijkheden zijn. Benadrukt werd dat psychometrische gegevens niet heilig zijn; het zijn indicaties dat er iets met de vraag of met de toets aan de hand is en interpretaties en reparaties moeten gebaseerd zijn op zorgvuldige afwegingen.

Naast bovenstaande gegevens, kunnen bij de toetsanalyse ook de door de studenten behaalde toetsresultaten onderzocht worden; welk aandeel studenten is geslaagd/gezakt? Hoe is de cijferverdeling?

Ook vakevaluatiegegevens vormen een belangrijke informatiebron. Via vakevaluaties wordt veelal onderzocht hoe de studenten zelf het niveau van de toets beoordeelden (moeilijk/makkelijk), of de toets voldeed aan hun verwachtingen (transparantie), of de toets representatief was en of de studenten voldoende tijd hadden om de toets te maken.

Om achteraf na te gaan of de toets kwalitatief goed was, zijn meer mogelijkheden denkbaar dan de hiervoor genoemden. Een deelnemer van de opleiding Informatica vertelde over een pilot waarin een klein groepje docenten elkaars tentamen bespraken (inclusief de toetsresultaten indien voorhanden). Zo’n gezamenlijke bespreking kan heel verhelderend werken en motiveert om een volgende keer wat meer op bepaalde kritische aspecten te letten.

Kwaliteitsborging van het eindniveau en het afstudeerwerk

Examencommissies hebben een belangrijke rol bij de borging van het eindniveau van de studenten van de eigen opleiding. Het afstudeerwerk, te zien als een soort van ‘meesterproef’, vormt daarvoor een belangrijke indicatie. Daarbij geldt dat alle kwaliteitseisen die voor toetsing en beoordeling in het algemeen gelden, evengoed voor het afstudeerwerk gelden. In onderdeel 3 van deze module werd hier kort bij stilgestaan.
Als voorbeeld uit de deelnemersgroep werd aangegeven dat examencommissies zelf een selectie van afstudeerwerken + beoordelingen kunnen bekijken om na te gaan of het niveau goed is. Dit werk kan eventueel uitbesteed worden aan personen die goed bekend zijn met de opleiding (en zo mogelijk ook het werkveld); dit kunnen mensen van binnen de opleiding of instelling zijn maar ook externen.

Uit de discussies kwam al snel naar voren dat het van belang is om ook aandacht te besteden aan de beoordelingswijze: hoe komen de cijfers tot stand? Worden er aparte cijfers gegeven voor het verslag, het proces en de presentatie en worden daar verschillende gewichten aan toegekend? Zijn er duidelijke beoordelingscriteria en worden die ook echt (aantoonbaar) gehanteerd door de beoordelaars? Wordt de student ook verteld waarop hij/zij beoordeeld wordt en krijgt hij/zij achteraf feedback? Hoeveel beoordelaars zijn er? Biedt de beoordelingsprocedure en de beoordelingswijze voldoende zekerheid dat het cijfer op een goede wijze tot stand komt en ook betekenisvol is.

Uit de bespreking van dit thema werd duidelijk dat voor de beoordeling nog vaak vertrouwd wordt op de expertise, ervaring en intuïtie van docenten. Wat ook zeker niet tot ‘verkeerde’ beoordelingen zal en hoeft te leiden. Maar de meeste deelnemers waren het er wel over eens dat het goed zou zijn de intuïtieve, impliciete criteria explicieter te maken en de docenten de beoordeling ook op schrift te laten verantwoorden. Dat maakt het werk van een examencommissie ook makkelijker, zeker waar het de kwaliteitsborging van het eindniveau betreft.

Kiezen voor een eigen procedure

Ter afsluiting werd samengevat welke gegevens nodig (kunnen) zijn om uitspraken te kunnen doen over de kwaliteit van toetsen en beoordelingen. Om over ieder vak uitspraken te kunnen doen, zou voor ieder vak een dossier opgebouwd kunnen worden met daarin de volgende informatie:

a)

vakbeschrijving

b)

leerdoelen (met niveau-aanduiding)

c)

toetsschema en toetsmatrijs

d)

tentamen/opdracht/casus

e)

cesuur

f)

antwoordmodel/beoordelingscriteria/rubric

g)

tentamen gegevens, zoals aantal aanmeldingen, deelnemers, slaagpercentage en frequentieverdeling voor behaalde cijfers

h)

psychometrische gegevens

i)

relevante gegevens uit de vakevaluatie

j)

bijzonderheden/klachten

k)

reflectie en actiepunten van de docent.

Het begon na deze opsomming bij iedereen te duizelen; zo’n vakdossier zou wel ongelooflijk veel werk met zich meebrengen en hoe krijg je docenten zover dat ze hieraan mee willen werken?
Een van de deelnemers wist te vertellen dat bij CW/PSY de docenten nu wel gevraagd wordt zo’n dossier in te leveren. Het management heeft hier tezamen met de examencommissie toe besloten en aan de docenten is gevraagd hier aan mee te werken. Doordat het wordt ondersteund met duidelijk informatiemateriaal (waarvan een voorbeeld in de module-map is toegevoegd) en invulformulieren, draagt het tegelijkertijd bij aan de onderwijsprofessionaliteit van de docenten.
Een andere deelnemers bracht in dat het allemaal wel erg veel bureaucratie met zich mee zou brengen. Hij was voorstander van het Finse model, dat docenten stimuleert en faciliteert om hun werk geïnspireerd te doen.

Het klinkt misschien wat makkelijk, maar vanuit de WHW wordt aan examencommissie de ruimte gegeven om zelf procedures te bedenken en te ontwikkelen om de kwaliteit van de toetsing te borgen. Er zijn meerdere wegen die bewandeld kunnen worden, en de context van de eigen opleiding is erg bepalend voor wat werkt en niet zal werken.

De bal en de uitdaging ligt nu bij de examencommissie om samen en in goed overleg met het opleidingsmanagement deze procedures te ontwikkelen op een manier die bij voorkeur ook nog docenten inspireert en niet tot onnodige bureaucratie leidt.

Evaluatie

Uit de evaluatie van deze ochtend blijkt dat alle deelnemers de bijeenkomst informatief vonden (de helft “zeer informatief”, de andere helft ‘enigszins informatief’). Op twee na, zouden alle deelnemers de bijeenkomst aanraden aan collega’s.

Meerdere opleidingen werken niet of nauwelijks met (mc-)tentamens. Voor deze deelnemers had het onderdeel over psychometrische analyses korter gemogen.

De meeste deelnemers achten zich na de cursus in staat om:

- aan te geven welke informatie van een docent nodig is om de kwaliteit van een toets goed te kunnen beoordelen en de aangereikte informatie te beoordelen op kwaliteit;

- in samenwerking met het opleidingsmanagement procedures voor kwaliteitsborging toetsing te ontwikkelen en uit te voeren, inclusief procedures om het eindniveau van de scripties te borgen.

Voor een aantal deelnemers bestaan er nog wel wat vraagtekens en onzekerheden of zij zien nog de ‘beren op de weg’.

De meeste vraagtekens betroffen het op basis van psychometrische gegevens aanreiken van oplossingen voor docenten om de kwaliteit van de toets te verhogen . Het interpreteren van psychometrische data is ook lastig en vergt ook de nodige oefening en ervaring.


In het algemeen lijkt te gelden dat deze module – net als ook geldt voor de eerdere twee modules - een goede aanzet heeft gegeven tot gedachtenvorming over de behandelde thema’s. Er is heel wat verteld en heel wat gediscussieerd, maar het blijft aan de examencommissies om er nu zelf een ‘eigen verhaal’ van te maken of, misschien nog beter, hun eigen ‘draaiboek’ voor de opleiding, toegespitst op de eigen specifieke situatie.

Ter informatie en om door te geven aan collega’s:

De drie expert-modules voor examencommissies zullen in april opnieuw worden aangeboden.

Op 1, 8 en 22 maart vindt de cursus Testing & Assessment voor docenten (e.a. belangstellenden) plaats (3 dagdelen). Het dagdeel op 22 maart gaat over toetsanalyse en is ook afzonderlijk te volgen. Inschrijving via de S&O-OD site: www.utwente.nl/so/od

De kennissite www.utwente.nl/toetsing raakt steeds beter gevuld. Maar heeft u nog interessante links of literatuur ontdekt of weet u mooie good practices, geef het vooral door! Laten we gezamenlijk een mooie verzameling nuttige kennis en voorbeelden tot stand brengen waar een ieder baat bij heeft.