In 2016 versloeg een computerprogramma, genaamd AlphaGo, de wereldkampioen in Go, een van de moeilijkste bordspellen ter wereld. Dat was een belangrijk moment in de geschiedenis van kunstmatige intelligentie. De gebruikte techniek gaf de computer het vermogen om zelf betere strategieën te leren. Inmiddels is deze techniek niet alleen geschikt voor bordspellen. Onderzoekers aan de Universiteit Twente passen deze vorm van kunstmatige intelligentie in de logistiek toe.
Wat computers leren van bordspellen
“Spellen zijn de perfecte manier om slimme algoritmes te ontwikkelen”, zegt Fabian Akkerman. “Je hebt duidelijke regels, een doel, en elke zet heeft gevolgen voor wat er daarna gebeurt.” Dat is precies waarom spellen zoals schaken of Go zo geschikt zijn om AI mee te trainen.
De techniek die de onderzoekers gebruiken heet reinforcement learning. Een algoritme maakt telkens keuzes, leert van de uitkomst, en probeert het bij een volgende poging beter te doen. Net als een gamer die steeds handiger wordt in een spel door fouten te maken en successen te herhalen. In zijn promotieonderzoek keek Akkerman naar logistieke problemen waarbij beslissingen niet eenmalig zijn, maar telkens opnieuw gemaakt moeten worden. Bijvoorbeeld: Welke bezorgmomenten bied je klanten aan?
“Klassieke methoden proberen alles in één keer uit te rekenen, alsof je aan het begin van een spel al weet hoe elke zet zal verlopen. Maar in de praktijk verandert de situatie telkens. Daarom trainen we systemen die kunnen bijsturen, leren en aanpassen”, legt hij uit.
Algoritmes spelen tegen zichzelf
“Maar de wereld is niet statisch. Klanten veranderen van gedachten en hoe plan je routes als je nog niet weet welke klanten zich melden? Daarom heb je een systeem nodig dat leert van wat er gebeurt en zich steeds aanpast.” Samen met onderzoekers van de TU/e ontwikkelden de UT-onderzoekers DynaPlex: open-source logistieke AI-software die in staat is voortdurend te leren en zich aan te passen aan veranderende omstandigheden.
In zijn onderzoek bouwde Akkerman modellen die zichzelf bijschoolden. Net zoals AlphaGo miljoenen potjes Go speelde tegen zichzelf, bootsten deze modellen duizenden logistieke scenario’s na. Zo leerden ze stapsgewijs wat de slimste beslissingen zijn.
Korting op het juiste moment
Een concreet voorbeeld: dynamische bezorgmomenten. Stel, je bestelt iets online. De webshop biedt je een bezorgmoment aan, soms met korting. Die momenten zijn niet toevallig gekozen. Achter de schermen bepaalt een algoritme welke optie voor de verkoper het meest gunstig is. Dat hangt af van hoeveel andere bestellingen er al gepland staan, waar je woont, gekozen bezorgmomenten van andere klanten en hoeveel ruimte er nog in de bus is.
Akkerman ontwikkelde een model dat zelf leert welke keuzes klanten beïnvloeden en hoe dit samenhangt met de bezorgplanning. “Het systeem leert bijvoorbeeld dat je klanten kunt stimuleren om een bezorgmoment te kiezen dat beter in de planning past, door op het juiste moment een kleine korting te geven.”
Beslissingen qua een geschikt bezorgmoment of de prijzen van deze bezorgmomenten moeten in een fractie van een seconden genomen worden zodra de klant online wil afrekenen. Omdat er op dat moment geen tijd is om van alles door te rekenen moet het systeem de ideale beslissing vooraf hebben geleerd.
Nu al succesvol
De aanpak wierp snel vruchten af. Inmiddels zijn er meer dan veertien succesvolle praktijkvoorbeelden, waaronder bij Albert Heijn, NXP, Vanderlande en ASML. Vaak werkten studenten samen met deze bedrijven om de software toe te passen in afstudeeropdrachten. Een voorbeeld is de toepassing bij ASML. Daar liet de software zien hoe het productie- en voorraadbeheer vijf procent efficiënter kon. En dat is op basis van echte klantdata en echte verbeteringen.
Ook wanneer bedrijven de software niet letterlijk implementeren, levert DynaPlex inzichten op. “Je kunt al veel leren door te zien waar AI andere keuzes maakt dan jij zelf zou doen”, verklaart Martijn Mes, hoogleraar bij de UT. “Dat daagt bedrijven uit om hun vaste aannames te heroverwegen. Soms ontdek je daardoor alternatieven waar je zelf nooit aan had gedacht.”
Sneller reageren
Deze technieken maken de logistiek efficiënter. Minder lege kilometers, betere benutting van voorraad en opslag, en sneller reageren op onverwachte situaties. Ook in voorraadbeheer leverde de aanpak van Akkerman goede resultaten op: “We ontwikkelden een systeem dat niet alleen rekening houdt met onzekerheid in klantvraag, maar ook met fouten in de administratie, zoals kwijtgeraakte producten.” Het systeem beslist wanneer welke producten te bestellen maar ook welke voorraadniveaus te inspecteren.
In al deze toepassingen kijkt het algoritme niet naar één beslissing, maar naar een reeks: als ik nu iets bestel of aanbied, wat betekent dat dan voor de volgende vijf stappen? Volgens Akkerman is de kracht van deze aanpak dat de computer niet alleen rekent, maar ook leert. “We bouwen systemen die net als een goede speler vooruitdenken, zich aanpassen, en het beter willen doen bij de volgende zet.”
De toekomst van slimme logistiek
Wat begon als een manier om een spelletje te leren spelen, groeit uit tot een sleuteltechniek voor moderne logistiek. De algoritmes die nog niet zo lang geleden de menselijke topspelers in computer- en bordspellen versloegen, helpen nu om pakketjes op tijd te bezorgen, voorraden aan te vullen en klanten betere keuzes te bieden.
En wie weet? Misschien beslissen zulke systemen straks ook mee over hoe we reizen, bouwen of produceren. Want één ding is zeker, zegt Akkerman: “Een lerend algoritme blijft zich verbeteren en dat maakt het een slimme en misschien zelfs onmisbare speler in de logistiek. ”




