Nieuws

Toepassing machine learning technieken op voorspelling van regenwateroverlast in stedelijk gebied

Publicatiedatum 04 januari 2022

Het voorspellen van overstromingsgevoelige locaties door hevige regenval is belangrijk om schade te kunnen beperken of voorkomen. Het voorspellen van hinder- of schadegevoelige locaties bij hevige neerslag is echter moeilijk. Extreme buien komen namelijk nog weinig voor en gegevens van eerdere wateroverlast zijn niet toegankelijk geregistreerd. In dit onderzoek gebruiken we machine learning als nieuwe techniek om regenwateroverlast te voorspellen. Deze techniek is een aanvulling op de bestaande hydraulische modelleringstechnieken die de stroming van regenwater voorspellen.

Onderzoeksvraag

“Hoe kunnen machine learning-technieken, toegepast op verschillende databronnen, worden gebruikt om regenwateroverlast te voorspellen?“ Subvragen die we in de conclusie beantwoorden:

  • Welke dataset kan het best gebruikt worden als target?
  • Welke samplingmethode ondersteunt het classificatieprobleem het beste?
  • Geeft de toevoeging van hoogteattributen een verbetering van het model?

Machine learning

Machine learning is een set technieken uit de Artificial Intelligence. Ons voorspellingsmodel probeert twee situaties van elkaar te onderscheiden: 1. regenwateroverlast (de positieve klasse) en 2. geen regenwateroverlast (de negatieve klasse). Het model krijgt de waardes van een aantal invoerattributen (de hoogtedata en hoeveelheid gevallen regen in de laatste tijdsperiodes) en probeert hiermee te voorspellen of de uitvoer positief of negatief zal zijn. Bij elk voorbeeld leert het model iets beter welke combinatie van attributen gepaard gaat met regenwateroverlast. Om een objectieve evaluatie te kunnen maken hoe het model generaliseert naar nieuwe, ongeziene data, moeten we het model ook evalueren op data die het nog niet eerder gezien heeft. Hierover kunnen we vervolgens verschillende prestatiematen berekenen. We zijn geïnteresseerd in ‘accuracy’ (nauwkeurigheid), ‘precision’ (precisie) en ‘recall’ (herroeping). Dit zijn begrippen uit de data science.

Voorspellingsmodel

Om vast te stellen waar en wanneer in Nederland gevallen van regenwateroverlast zijn geweest hebben we twee opties onderzocht. Een dataset met Twitterberichten waarin regenwateroverlast genoemd is en een dataset met noodmeldingen uit het P2000-netwerk. Het doel was om te bepalen welke dataset het meest betrouwbaar is om regenwateroverlast te voorspellen. We concludeerden dat de P2000-meldingen minder ruis bevatten dan de Twitterberichten en dus beter zijn om te gebruiken.

Machine learning-modellen hebben zowel positieve als negatieve voorbeelden nodig om te kunnen leren. Maar de hoeveelheid data zonder wateroverlast (negatieve voorbeelden) is veel groter dan die mét overlast. Voor de prestaties, voorkeuren en betrouwbaarheid van het model zijn evenveel negatieve als positieve voorbeelden nodig. We creëren een gebalanceerde dataset door een deel van de voorbeelden te gebruiken (‘subsampling’). We hebben hiervoor drie verschillende sampling-methoden vergeleken: 1. Willekeurig, 2. Gebaseerd op het adressenbestand en 3. Regenafhankelijk.
De adres- en regenafhankelijke subsamplingmethoden blijken realistischer en betrouwbaarder voorspellingen te geven dan de willekeurige methode.

Figuur van drie toegepaste methoden voor data-selectie
Figuur A drie toegepaste methoden voor data-selectieVergroot afbeelding

Voorspellende attributen

Op basis van de subsamplingmethoden konden we een dataset construeren met voorbeelden en tegenvoorbeelden van situaties waar regenwateroverlast optrad. Vervolgens hebben we een aantal beschrijvende attributen gebruikt die het model helpen verklaren waarom er op dezelfde locatie op het ene moment wel regenwateroverlast optrad en op het andere niet. Hiervoor gebruikten we de terreinhoogte op basis van de AHN en de gemeten regendata van het KNMI. Het gebruik van zowel Twitter- als P2000-datasets en de samplingmethodes boden verschillende datasets om mee te trainen en experimenten op uit te voeren.

Modellen

Onze gebruikte modellen werden gegenereerd door auto-sklearn. Auto-sklearn is een AutoML-methode die probeert om op een geautomatiseerde manier het beste model voor een machine learning-probleem te vinden. Daarnaast kiest het ook de juiste voorbewerkingsoperatoren en optimaliseert het de hyperparameters van het model (verschillende ontwerpcriteria die van invloed zijn op de prestaties ervan).

Resultaten

Tijdens onze experimenten leverde een voorspellingsmodel getraind met een dataset met willekeurige sampling de hoogste accuracy (gemiddeld 77%). Dit betekent dat het model in 77% van de gevallen de juiste voorspelling doet. Dit is hoger dan de gemiddelde accuracy van modellen die zijn getraind met datasets die zijn samengesteld op basis van de adresgebaseerde of regenafhankelijke subsamplingmethode. Deze modellen behaalden een accuracy van respectievelijk 69% en 58%. Dit hoeft niet te betekenen dat deze modellen minder goed zijn. In dit geval wordt namelijk het probleem dat het model moet oplossen steeds moeilijker.
Het model heeft duidelijk baat bij zowel regendata als hoogtedata. De accuracy bij het gebruik van hoogteattributen is wel hoger. Dit suggereert dat regenwateroverlast afhankelijk is van terreinhoogte.

Conclusie

Tijdens dit onderzoek zijn machine learning-technieken voor het eerst toegepast op het domein stedelijk waterbeheer. We hebben een juist attribuut bepaald om gebeurtenissen van regenwateroverlast te benaderen, hoogtekaarten en regenmetingen om te zetten in attributen en verschillende samplingmethodes om negatieve voorbeelden te implementeren. We hebben gedemonstreerd dat machine learning-technieken kunnen worden toegepast om regenwateroverlast te voorspellen. Ook toonden we aan dat terreinhoogtedata gebruikt kunnen worden bij het voorspellen van regenwateroverlast. Deze methode kan verder worden ontwikkeld en uiteindelijk worden gebruikt door gemeenten en waterschappen bij het identificeren van kwetsbare gebieden.

De beantwoording van de subvragen van de onderzoeksvraag is:

  • De dataset die het best gebruikt kan worden zijn de noodmeldingen van het P2000-netwerk. Deze meldingen bevatten minder ruis dan de Twitterberichten.
  • De samplingmethodes die het classificatieprobleem het beste ondersteunen zijn de adressenmethode en de regenafhankelijke methode.
  • De prestaties van de modellen verbeteren bij het gebruik van hoogteattributen.

Toekomstvisie

In de toekomst kan de manier waarop hoogtedata in het model worden verwerkt verder geoptimaliseerd worden. Zo kan de grootte van het gebied waarin hoogtemetingen worden meegenomen worden geoptimaliseerd. Ook kunnen de data op een andere manier verwerkt worden, bijvoorbeeld door het gebruik van een convolutional neural network.
De P2000- en Twitterdatasets hebben als tekortkoming dat het wateroverlast weergeeft, waarvan regen niet noodzakelijkerwijs de oorzaak is. Verder onderzoek kan een dataset van hogere kwaliteit opleveren. Ook andere databronnen dan P2000 en Twitter zijn het onderzoeken waard, bijvoorbeeld waterschademeldingen die worden geregistreerd door het Verbond van Verzekeraars. Ten slotte kunnen ook nieuwe voorspellende attributen worden toegevoegd, zoals eigenschappen van de riolering of van gebouwen.

Lees het artikel ook in H2O

Alle nieuwsberichten