De risico’s van AI
"AI maakt fouten, en die willen we voorkomen. Mijn onderzoeksgroep bouwt uitlegbare AI: AI die laat zien hoe het tot bepaalde conclusies komt," zegt adjunct-hoogleraar Maurice van Keulen, die onder andere lesgeeft in de bachelor- en masteropleidingen Informatica aan de Universiteit Twente. Hij heeft ook de mastercursus Data Science ontwikkeld, die openstaat voor alle studenten binnen de universiteit.
Na de ontwikkeling van een AI-systeem om heupfracturen op röntgenfoto’s te detecteren, stuitte zijn team op een fundamenteel probleem. Volgens de wetenschappelijke literatuur werd 95% nauwkeurigheid geclaimd, terwijl hun onafhankelijke studie met gegevens van het ZGT-ziekenhuis 93% vond. Toen ze de afbeeldingen manipuleerden door de fracturen te verwijderen en deze opnieuw door het model haalden, gaf de AI nog steeds bij 25% van de gemanipuleerde afbeeldingen aan dat er een fractuur was, terwijl die er niet meer was.
Een radioloog binnen het team ontdekte wat er aan de hand was. "Het model gebruikte visuele aanwijzingen zoals gerimpelde huid. Meer dan 90% van de röntgenfoto’s van oudere mensen tonen fracturen. Dus vond het model een patroon: gerimpelde huid werd geassocieerd met een fractuur. Dit wordt shortcut learning genoemd en is een groot risico in medische AI. Modellen nemen beslissingen die accuraat lijken, maar redeneren op een niet-medische manier," legt Van Keulen uit.
De noodzaak van uitlegbaarheid van AI in de zorg
Traditionele AI functioneert als een black box. Van Keulen legt uit: "Neem ChatGPT: je voert input in en er wordt een antwoord gegenereerd. Maar je weet niet hoe dat antwoord tot stand is gekomen. Bij het detecteren van fracturen is een simpel ja- of nee-antwoord niet genoeg. Zonder inzicht in de redenatie van het model kunnen artsen de uitkomst niet verifiëren en zouden ze deze dus niet mogen vertrouwen."
Om inspectie van de redenatie van AI mogelijk te maken, stelde zijn team een nieuwe methode voor: PIP-Net, bedoeld om AI van meet af aan uitlegbaar te maken. Toen ze met PIP-Net een AI ontwikkelden voor de detectie van enkelbreuken, zagen ze veelbelovende resultaten. Het uitlegbare AI-model leek te redeneren volgens het Weber-classificatiesysteem: een standaardkader dat radiologen gebruiken om breuken te categoriseren. Opmerkelijk was dat het model deze patronen zelfstandig had geleerd door voorbeelden te analyseren.
De uitlegbaarheid onthulde echter ook dat het model andere aanwijzingen gebruikte. Zo had het visuele elementen, zoals delen van een bed op de spoedeisende hulp zichtbaar op de röntgenfoto, geassocieerd met de aanwezigheid van een fractuur. Omdat patiënten op de spoedeisende hulp vaker gewond zijn, gebruikte het model contextuele aanwijzingen in plaats van anatomisch bewijs. "Dankzij de uitlegbaarheid konden we ingrijpen en het model verfijnen, zodat het niet langer op zulke argumenten vertrouwde," zegt Van Keulen.
AI-geletterdheid in de zorg
"Als we geen radioloog in ons team hadden gehad, zouden we niet hebben ontdekt dat de AI gerimpelde huid gebruikte om heupfracturen te voorspellen. Daarom is het essentieel dat artsen betrokken zijn bij het ontwikkelingsproces van AI. Ze moeten voldoende begrijpen hoe deze systemen werken: niet alleen om ze verantwoord te kunnen gebruiken, maar ook om te helpen ze te ontwikkelen. Uiteindelijk zijn het de artsen die op deze AI-systemen zullen moeten vertrouwen, dus moeten we ze samen ontwerpen."