Vakgroep Psychologie, Gezondheid & Technologie

Nederlandse samenvatting

Fysiek functioneren is een gevestigd uitkomstdomein in het veld van reumatoïde artritis onderzoek.

Sinds fysiek functioneren voor het eerst is voorgesteld als kern uitkomstdomein in dit veld, heeft het meten van fysieke beperkingen zich ontwikkeld van simpele, gestandaardiseerde prestatietests tot patiënt gerapporteerde uitkomst instrumenten die beogen een omvattende evaluatie te verschaffen van de verschillende aspecten van het functioneren van de patiënt. De resultaten van twee systematische literatuurstudies in hoofdstuk 2 laten zien dat er maar liefst 26 verschillende vragenlijsten beschikbaar zijn voor het meten van fysiek functioneren bij patiënten met reumatoïde artritis, waarvan 10 er ook zijn geëvalueerd bij Nederlands sprekende patiënten. De interpreteerbaarheid van fysiek functioneren vragenlijsten wordt belemmerd door de beschikbaarheid van zo veel verschillende instrumenten met elk zijn eigen unieke items en scoringsprocedures, zodat studies die verschillende vragenlijsten gebruiken vaak moeilijk te vergelijken zijn. Verder is het zo dat hoewel veel van de geëvalueerde vragenlijsten over voldoende inhoudsvaliditeit en constructvaliditeit bleken te beschikken, vloer en plafond effecten ook vaak aanwezig bleken te zijn, zelfs bij de meest gebruikte vragenlijsten en met name in recentere studies. Dit was een verwachte bevinding met het oog op de bekende heterogeniteit van fysieke belemmeringen bij patiënten met reumatoïde artritis en doordat de geïncludeerde vragenlijsten een beperkt aantal vragen bevatten. Deze bevindingen onderschrijven het belang van verdere standaardisatie en gepersonaliseerde evaluatie van fysiek functioneren die gerealiseerd kan worden binnen het IRT raamwerk.

De eerste sectie van hoofdstuk 3 presenteert een studie waarin de cross-culturele equivalentie van een Nederlandse vertaling van de veelgebruikte HAQ-II wordt geëvalueerd. De studie illustreert dat IRT een natuurlijk raamwerk biedt voor het evalueren van de aanwezigheid van items met culturele bias en voor het evalueren van hun impact op de vergelijkbaarheid van totaalscores tussen landen. De resultaten lieten zien dat HAQ-II totaalscores vergelijkt kunnen worden tussen culturen, ondanks de aanwezigheid van een aantal individuele items met culturele bias. Echter, in gevallen waarin de vergelijkbaarheid van scores ondermijnd wordt door de aanwezigheid van culturele onzuiverheid, kunnen scores vergelijkbaar gemaakt worden door IRT scoringsprocedures te ontwikkelen waarbij land-specifieke item parameters worden toegewezen aan items met bias. Deze methodologie kan in algemene zin worden toegepast om valide scoringsprocedures te ontwikkelen voor verschillende versies van een vragenlijst of voor vragenlijsten met bias veroorzaakt door achtergrondvariabelen zoals geslacht. Dit werd geïllustreerd in de tweede studie van hoofdstuk 3, waar twee verschillende versies van de Nederlandse HAQ-DI onderling uitwisselbaar bleken te zijn. Wij raden onderzoekers die geïnteresseerd zijn in het introduceren van aangepaste of vertaalde versies van een vragenlijst aan om de meetequivalentie ten opzichte van het origineel te onderzoeken als onderdeel van de routinematige evaluatie van validiteit en betrouwbaarheid en, indien nodig, IRT scoringsprocedures te ontwikkelen in het geval van aanzienlijke bias.

Een probleem dat gerelateerd is aan de wildgroei aan fysiek functioneren vragenlijsten die vastgesteld werd in hoofdstuk 2, is dat studies die verschillende fysiek functioneren vragenlijsten gebruikt hebben moeilijk te vergelijken zijn, omdat vragenlijsten vaak hun eigen items en scoringsprocedures hebben. Als gevolg daarvan is het functieniveau van patiënten moeilijk te karakteriseren met patiënten vragenlijsten. In het IRT raamwerk kunnen fysiek functioneren scores uitgedrukt worden op een gemeenschappelijke schaal, onafhankelijk van welk instrument is afgenomen in een studie, onder de voorwaarde dat de item parameters zijn gekalibreerd onder een gezamenlijk IRT model. In hoofdstuk 4 werd geïllustreerd hoe deze eigenschap benut kan worden om conversietabellen te ontwikkelen die totaalscores van twee of meer vragenlijsten verbinden. De resultaten lieten zien dat een zogenaamde crosswalk-tabel tussen de twee meest gebruikte vragenlijsten in reumatoïde artritis onderzoek, de HAQ-DI en SF-36 PF10, betrouwbare score conversies mogelijk maakt op groepsniveau. De conversietabellen werden ontwikkeld in een Nederlandse steekproef van patiënten met reumatoïde artritis. De tweede studie in hoofdstuk 4 liet zien dat de tabellen ook gebruikt kunnen worden om scores om te zetten bij Amerikaanse patiënten met reumatoïde artritis, fybromyalgie en lupus. Bij het ontwikkelen van de crosswalk tabellen hebben we er voor gekozen om IRT scores terug te converteren naar de metriek van de gebruikte vragenlijsten omdat we verwachtten dat dit beter begrepen zou worden door de onderzoekers en clinici die met deze vragenlijsten werken. Dit introduceert echter een extra bron van meetfouten, gerelateerd aan het feit dat geobserveerde totaalscores bijna nooit perfect overlappen op de latente schaal. Dit heeft als gevolg dat voorzichtigheid geboden is bij het gebruik van de conversietabellen met kleine steekproeven, met name in meta-analyses omdat effecten hierdoor waarschijnlijk enigszins onderschat kunnen worden. Verder is het waarschijnlijk niet mogelijk om conversietabellen te ontwikkelen voor elk van de vele fysiek functioneren vragenlijsten die gebruikt worden in dit veld.

Een meer directe en precieze aanpak om fysiek functioneren uitkomsten te linken in het reumatoïde artritis veld is om een omvattende fysiek functioneren item bank te kalibreren die alle fysiek functioneren vragenlijsten die in het vel gebruikt worden bevat. De resulterende metriek kan dan gebruikt worden als een gestandaardiseerde eenheid voor fysiek functioneren uitkomsten in reumatoïde artritis onderzoek. De resterende hoofdstukken van deze these beschrijven het proces van het kalibreren van een item bank die in de toekomst gebuikt kan worden voor deze doeleinden in dit veld. Hoofdstuk 5 beschrijft de rigoureuze methodologie die gevolgd is bij het vertalen van de in Amerika ontwikkelde PROMIS fysiek functioneren item bank naar de Nederlandse taal en het cross-cultureel aanpassen daarvan voor gebruik in Nederlandse patiënten met reumatoïde artritis. Deze stap was belangrijk, zowel om potentieel problematische items op het spoor te komen als om de collectieve expertise van een team van inhoudsdeskundigen en patiënten te benutten om een vertaalde versie te ontwikkelen die zowel conceptueel als semantisch optimaal equivalent is aan het origineel. In het geval van de PROMIS fysiek functioneren item bank in hoofdstuk 5 werden slechts 5 items geïdentificeerd met mogelijk culturele ontoepasselijke inhoud. Deze items werden herschreven om beter te passen in de Nederlandse situatie. De resultaten van deze exercitie leverden waardevolle informatie over de indrukvaliditeit van de vertaalde versie voor Nederlandse patiënten met reumatoïde artritis. Echter een nadeel van de methodologie is dat het niet mogelijk is om direct uit de resultaten af te leiden of aanpassing van problematische items leidt tot cross-cultureel equivalente versies vanuit een meetperspectief en of er mogelijk andere problematische items gemist zijn. In hoofdstuk 6 werd een studie gepresenteerd waarin de vertaalde item bank werd gekalibreerd in een steekproef van Nederlandse patiënten met reumatoïde artritis waarin onder meer de meetequivalentie met het origineel werd onderzocht. De resultaten lieten zie dat de item bank gekalibreerd kon worden onder een toepasselijk IRT model. Deze bevinding levert empirisch bewijs voor de validiteit van toepassingen van de item bank die invariante schattingen vereist van de item parameters zoals computer adaptief toetsen of gepersonaliseerde korte vragenlijsten. Helaas was het nog niet mogelijk om een definitieve analyse uit te voeren naar de meetequivalentie ten opzichte van het origineel door een problematische verdeling van de Amerikaanse algemene populatie data. Verder moet de kalibratie die gepresenteerd is in hoofdstuk 6 als voorlopig beschouwd worden doordat de steekproef betrekkelijk bescheiden was en het is daardoor mogelijk dat sommige items bias vertoonden door steekproef willekeurigheden. Toekomstige studies zijn nodig om definitieve conclusies mogelijk te maken met betrekking tot de equivalentie van de Nederlandse versie van de item bank ten opzichte van het origineel en als het nodig is valide scoringsprocedures te kunnen ontwikkelende het mogelijk maken om Nederlandse onderzoeksresultaten tot uitdrukking te brengen op de Amerikaanse schaal, ook als er items met bias zijn. Dit zal er dan voor zorgen dat Amerikaanse en Nederlandse studieresultaten vergeleken kunnen worden.

In hoofdstuk 7 werden de meeteigenschappen van de PROMIS fysiek functioneren item bank onderzocht en vergeleken met de meeteigenschappen van twee veel gebruikte fysiek functioneren vragenlijsten, de HAQ-DI en SF-36 Pf-10. Het was niet verrassend dat de item bank een meer omvattende dekking van het gehele fysiek functioneren construct had en een hogere ideale meetprecisie. Een interessante bevinding was echter dat de item bank daarnaast ook een veel breder meetbereik had, waardoor vooral de betrouwbaarheid van fysiek functioneren scores van patiënten met relatief hoog fysiek functioneren sterk verbeterd. Relatief hoge niveaus van functioneren komen steeds vaker voor door vroege en agressieve behandeling. De resultaten van deze studie illustreren in dat opzicht de tekortkomingen van klassieke instrumenten die meer gericht zijn op patiënten met aanzienlijke fysieke beperkingen. Praktische toepassingen van de item bank zullen dan ook in de partkijk ingezet kunnen worden om zogenaamde plafond effecten van klassieke instrumenten te overkomen. Deze resultaten werden bevestigd in de simulatiestudie in hoofdstuk 8. In overeenstemming met eerder onderzoek werd ook door ons gevonden dat de HAQ-DI optimaal en bijna even goed als de verschillende geëvalueerde computer adaptieve test algoritmes functioneert voor lage niveaus van fysiek functioneren, terwijl de SF-36 fysiek functioneren schaal optimaal functioneerde voor bovengemiddelde niveaus van functioneren. Verder lieten de resultaten zien dat een computer adaptieve test met 5 items even hoge of hogere meetprecisie heeft dan de beide klassieke instrumenten, voor alle niveaus van functioneren. Dit was een indrukwekkende bevinding omdat de beide klassieke instrumenten respectievelijk 20 en 10 vragen bevatten. We vonden verder dat een computer adaptieve test met 10 items optimaal was en dat de meetprecisie niet veel meer verbeterde met meer items. De hogere meetprecisie van de computer adaptieve test met 10 items resulteerde ook in meer onderscheidingsvermogen om veranderingen in fysiek functioneren vast te stellen dan de beide klassieke vragenlijsten.

Samenvattend laten resultaten van hoofdstuk 2 zien dat er veel verschillende vragenlijsten beschikbaar zijn voor het meten van fysiek functioneren bij patiënten met reumatoïde artritis. Alle 26 gevonden instrumenten waren vragenlijsten met een vast aantal items en een scoringsregel gebaseerd op het optellen van de individuele item scores, in overeenstemming met de principes van de klassieke test theorie. De belangrijkste tekortkomingen van de geëvalueerde vragenlijsten bleken dan ook verklaarbaar te zijn vanuit de theoretische tekortkomingen van de klassieke testtheorie die in de inleiding van dit proefschrift besproken zijn. Deze tekortkomingen zijn het resultaat van arbitraire scoringsprocedures die alleen interpreteerbaar zijn met gedetailleerde kennis van de items en de antwoordalternatieven. Daarnaast bleek dat de vragenlijsten die elk een beperkt, vast aantal items bevatten, vaak niet in staat waren om alle voorkomende niveaus van fysiek functioneren te weerspiegelen. In de resterende hoofdstukken van deze these werd beschreven hoe de kalibratie van bestaande vragenlijsten of item banken met bet behulp van IRT gebruikt kan worden om de interpreteerbaarheid van fysiek functioneren uitkomsten te bevorderen en om het meetbereik van fysiek functioneren instrumenten te vergtoten. Verder werd aangetoond hoe analyse van en statistische correctie voor bias veroorzaakt door vertaling of achtergrondvariabelen bij fysiek functioneren instrumenten uitgevoerd kan worden binnen het IRT raamwerk.