Data science biedt perspectief om hemelwateroverlast te voorspellen

Laatst geactualiseerd 02 november 2020

Samen met het Advanced Data Science Lab (ADSL) van de Universiteit Leiden hebben STOWA en Stichting RIONED in 2019/2020 verkennend onderzoek gedaan om twee vragen te beantwoorden: Wat kan data science betekenen voor de analyse en aanpak van wateroverlast?; Kunnen we data science inzetten om hemelwateroverlast in stedelijk gebied te voorspellen of modelleren? Hier vindt u informatie over de aanpak, de eerste resultaten en het vervolg van dit onderzoek.

Wat is data science?

Data science, en in het bijzonder machine learning, is een vakgebied waarin technieken worden ontwikkeld die trends in data kunnen ontdekken en hiervoor automatisch modellen kunnen genereren. Voorwaarden hierbij zijn:

Er bestaat een correlatie tussen de invoerdata en de trend die voorspeld moet worden.
Er zijn voldoende data beschikbaar om de patronen automatisch te ontdekken.

Gebruikte onderzoeksdata

Om de twee onderzoeksvragen te beantwoorden, hebben we terreinhoogtedata, KNMI-neerslagradardata en gemeten consequenties in de vorm van tweets (Twitterberichten) over hemelwateroverlast gebruikt. De trend die we willen voorspellen is: wat is – gegeven de terreinhoogtedata van een bepaald gebied – de hoeveelheid hemelwater die hier kan vallen voordat er negatieve consequenties ontstaan? Hiermee willen we uiteindelijk de kwetsbaarheid van straten of percelen in kaart brengen.

Tweets over hemelwateroverlast

In veel datascienceprojecten wordt het belang van consequentiedata onderschat of zijn die gegevens zelfs niet aanwezig. In dit verkennende onderzoek hebben we voor consequentiedata naar tweets gekeken. De volgende termen bleken de meest nuttige tweets op te leveren: wateroverlast, overstroming, hoosbui, schade, noodweer, wolkbreuk en waterschade. Zo hebben we ongeveer 7.000 relevante tweets met locatie gevonden.

Dataset gebalanceerd opgebouwd

In dit onderzoek hebben we de negatieve klasse (geen tweets) zo geselecteerd dat deze even groot is als de positieve klasse (wel tweets). Hiermee voorkomen we dat het model een voorkeur ontwikkelt om de negatieve klasse te voorspellen. Door de dataset gebalanceerd op te bouwen, zijn de uitkomsten bruikbaar en kunnen we de accuraatheid rapporteren en interpreteren. Modellen met een accuraatheid lager dan 50% doen het slechter dan random gokken en zijn niet nuttig, modellen met een accuraatheid hoger dan 50% zijn potentieel nuttig.

Resultaten

Om de resultaten te meten, hebben we een ‘holdout set’ gebruikt. Dat wil zeggen dat we de data in twee delen hebben opgesplitst. Eén deel is gebruikt om het model mee te trainen, het andere deel om de accuraatheid van het model te berekenen. Het model voorspelt voor kilometervakken of bij een bepaalde bui wel of niet tweets over hemelwateroverlast kunnen worden verwacht. Hoewel dit een surrogaatvraag is voor de eigenlijke onderzoeksvraag, zijn de resultaten hoopgevend. Het model voorspelt ongeveer 62% correct. Als het model hemelwateroverlast voorspelt, is dit in 72,2% van de gevallen ook juist. Het model weet ongeveer 30% van de tweets over hemelwateroverlast te identificeren.

Mogelijke modelverbeteringen

De resultaten geven aan dat het model met relatief weinig data op een niet geheel optimale resolutie al potentie heeft en verbanden kan ontdekken. We zien de volgende mogelijkheden om het model te verbeteren:

Hogere datakwantiteit.
Hogere datakwaliteit.
Hogere dataresolutie.
Werken met bui-kenmerken.
Een getuned model gebruiken.

Hogere datakwantiteit

Machinelearningtechnieken werken beter wanneer veel data beschikbaar zijn. We kunnen vrijwel kosteloos aan meer data komen. Elk jaar verschijnen online meer tweets, die we met de huidige scripts automatisch kunnen downloaden.

Hogere datakwaliteit

De kwaliteit van de tweets waarmee we hebben gewerkt, is niet optimaal. We hebben al enige stappen gemaakt om deze kwaliteit te verbeteren, maar met een willekeurige steekproef kan het model nog steeds berichten vinden die wellicht niets met wateroverlast in stedelijk gebied te maken hebben ('false positives'). We gaan proberen om deze databron verder te verbeteren. Daarnaast kijken we naar andere indicatoren voor hemelwateroverlast, zoals schademeldingen bij verzekeraars en 112-meldingen.

Hogere dataresolutie

In dit verkennende onderzoek hebben we KNMI-kilometervakken gebruikt. De voornaamste reden hiervoor was dat de initiële dataset (nieuwsberichten over hemelwateroverlast) de voorbeelden van hemelwateroverlast op deze manier aanbood. Dit had twee negatieve consequenties:

er zat een groot resolutieverschil tussen twee belangrijke databronnen, namelijk de hoogtekaart en de voorbeelden van hemelwateroverlast;
we moeten hemelwateroverlast voorspellen op basis van een vierkante kilometer, terwijl de oorzaak wellicht op een veel kleinere resolutie ligt. De rest van het kilometervak zal het model slechts afleiden. Omdat de tweets over hemelwateroverlast redelijk precies worden aangeduid (met lengte- en breedtegraad), zitten we niet langer vast aan het kilometervak en kunnen we met kleinere vakken experimenteren. Ook kunnen we het AHN3 (Algemene Hoogebestand Nederland) met een hogere resolutie efficiënt gebruiken. De KNMI-neerslagradardata zijn nog steeds op de kilometervakresolutie, maar we verwachten niet dat dit een probleem oplevert.

Werken met bui-kenmerken

In deze eerste verkenning hebben we neerslagdata geaggregeerd tot dagsommen. Dit leek een aardige eerste opzet die ook redelijke resultaten opleverde. Maar het maakt wel verschil of in een kilometervak 20 mm verspreid over de hele dag valt of dat dezelfde hoeveelheid in een uur valt. Nu weet het model dat niet. In een volgende versie willen we het model bui-kenmerken geven, net als bij RadarTools.

Een getuned model gebruiken

Goede machinelearningtechnieken werken met vele zogenaamde hyperparameters, parameters van het model die je precies goed moeten afstellen om goede resultaten te kunnen verwachten. In het vervolgtraject willen we dit afstellen automatiseren. Dat kost een flinke inspanning, maar levert twee grote voordelen op:

Betere resultaten, aangezien de computer meer tijd heeft om verschillende hyperparameters uit te proberen.
Minder kosten, aangezien de computer in theorie continu kan blijven zoeken naar een beter model, zonder dat een datascience-expert daaraan tijd hoeft te besteden.

Vervolg en presentatie tijdens RIONEDdag 2021

Op basis van de hierboven genoemde verbeterpunten gaan we het model verder ontwikkelen. Op de online RIONEDdag van 28 januari 2021 presenteerden Jan van Rijn van universiteit Leiden de nieuwe resultaten van dit datasciencemodel om hemelwateroverlast te voorspellen.

Lees ook het artikel over de aanpak en resultaten op H2O-Online.