AI en mer: experiment in volle gang

Maartje van Ravesteijn (Rijkswaterstaat) en Arnoud Witsel (Informatiepunt Leefomgeving)

In mei 2025 stond het grootste internationale congres over milieueffectrapportage (mer) volledig in het teken van AI. Maartje van Ravesteijn, senior adviseur mer bij Rijkswaterstaat, presenteerde er het onderzoek over het beantwoorden van helpdeskvragen over mer door chatbots. Ze keerde terug met nieuwe inzichten over wat AI al kan en wat nog niet. Collega Arnoud Witsel, productowner van de IPLO-website en trekker van de AI-strategie, ziet kansen voor AI maar vooral als 'tweetrapsraket: AI als voorfase, de expert als achtervang'.

Een congres als spiegel van een vakgebied in beweging

Het 44e jaarcongres van de International Association for Impact Assessment (IAIA) in Bologna, van 1 tot en met 4 mei, trok meer dan 1.000 deelnemers uit alle hoeken van de wereld. Milieuexperts, beleidsmakers en onderzoekers wisselden er kennis uit over impact assessment in de breedste zin van het woord. Dit jaar was het centrale thema de impact van AI op dat vakgebied.

“Het programma was heel breed”, vertelt Maartje. “Er waren presentaties over hoe je AI kunt inzetten bij het maken van een groot milieueffectrapport, maar ook over het efficiënter uitvoeren van milieuonderzoeken. Denk aan satellietbeelden analyseren om te zien waar walvissen zwemmen, in plaats van mensen te sturen die zelf urenlang satellietbeelden bekijken. Er waren ook meer kritische presentaties, over de milieu-impact van datacenters en het energieverbruik van AI-tools.”

Die laatste invalshoek raakt Maartje persoonlijk. Als adviseur milieueffectrapportage denkt ze vanzelfsprekend na over milieuconsequenties. “Ik merk dat ik iets terughoudender ben met AI-gebruik dan collega's, vanwege de enorme hoeveelheid energie die erbij wordt gebruikt. Die energie moet ergens worden opgewekt en dat heeft milieu-impact, bij fossiele energie in de vorm van de uitstoot van vervuilende stoffen en bij windturbines of zonneparken in de vorm van landschappelijke impact.”

"AI levert intelligentie, maar menselijke wijsheid blijft onmisbaar voor de interpretatie."

De openingstoespraak van IAIA-president Alan Ehrlich maakte indruk. “Je hebt allebei nodig”, zegt Maartje. “De intelligentie van de AI en de kennis van mensen om de juiste context te beoordelen.” Ehrlich verwoordde het zelf zo: “AI levert intelligentie, maar menselijke wijsheid blijft onmisbaar voor de interpretatie.” Wees bijvoorbeeld kritisch op de door AI gebruikte bronnen, voegt Maartje toe. “In een van de sessies werd benoemd dat AI wetenschappelijk onderzoek had verzonnen om een zoekopdracht te kunnen beantwoorden.”

Kunnen chatbots helpdeskvragen over mer beantwoorden?

Samen met collega's Gosewien van Eck en Yulita Muspitasari deed Maartje onderzoek naar een concrete vraag: kunnen chatbots helpdeskvragen over milieueffectrapportage beantwoorden? De resultaten van dat onderzoek presenteerde ze in Bologna aan zo'n 50 vakgenoten.

De aanleiding voor dit onderzoek was praktisch: de eerste AI-verkenning die liep bij het Informatiepunt Leefomgeving (IPLO). IPLO is het kenniscentrum van de overheid voor de fysieke leefomgeving. In 2024 kreeg IPLO maar liefst 42.000 vragen. Die worden beantwoord door inhoudelijke experts, mensen die de regelgeving door en door kennen. De vraag was: kan AI hen daarin ondersteunen?

Voor het onderzoek selecteerde het team 25 representatieve vragen die de IPLO mer-experts in de praktijk hadden ontvangen. Die voerden ze in bij drie tools: de toenmalige versie van de IPLO-chatbot, een demo die de provincie Friesland had laten bouwen (nu omgevingschat.nl), en ChatGPT. Alle antwoorden werden beoordeeld door vijf mer-experts op een schaal van 1 (niet bruikbaar) tot 5 (zeer bruikbaar). Daarna volgde een discussie met een groepje collega's van Rijkswaterstaat die zelf ook wel eens mer-vragen stellen, en een reeks interviews met AI- en Omgevingswetexperts.

De conclusie was duidelijk: getrainde modellen scoorden beduidend beter dan een generiek model als ChatGPT. Arnoud Witsel, productowner van de IPLO-website en trekker van de AI-strategie, legt het verschil goed uit: “ChatGPT is een algemeen getraind model. Het IPLO-experiment is eigenlijk gewoon ChatGPT, maar dan volledig getraind op iplo.nl, met vangrails zodat hij niet buiten zijn kennisgebied antwoord geeft.”

Wat lastig is voor AI-modellen, is de interpretatie van complexe juridische vragen. De IPLO-pagina's bevatten al veel informatie. Het antwoord op basisvragen, bijvoorbeeld over mer, vinden mensen dus al snel op de IPLO-website. Pas wanneer het complexer wordt, dient iemand een helpdeskvraag in. Maartje: “Een typische IPLO-vraag gaat over de relatie tussen meerdere artikelen in de wet, de interpretatie van een begrip in een specifieke context, of de vraag welke vergunningsplicht geldt in een complexe situatie.” Arnoud vult aan: “Daar hebben de AI-modellen moeite mee, een algemeen ChatGPT-model meer dan een getraind model. Bovendien gebruikte de tool soms nog de Wet milieubeheer als basis, de wet die per 1 januari 2024 grotendeels is vervangen door de Omgevingswet.”

Er was ook nog een onverwachte bijvangst. Maartje: “We ontdekten gaten in onze eigen webpagina's. Informatie waarvan we dachten dat die er stond, maar die er eigenlijk niet of niet duidelijk genoeg stond. Dat heeft ons geholpen om de website te verbeteren.”

De aanbevelingen uit de conclusie van het onderzoek richtten zich op het uitbreiden van de databank (onder andere met het Omgevingsbesluit en Europese mer-regelgeving) en het mogelijk maken van vervolgvragen. Verder kon je op het moment van het onderzoek nog niet doorvragen op de antwoorden die de tool gaf, terwijl het doorvragen bij chatbots juist de beste antwoorden oplevert.

Het IPLO-experiment: van vraagbaak naar sparringpartner

De mer-ervaringen met vraagbeantwoording met AI waren dus onderdeel van een breder experiment van IPLO. In 2024 startte dat met een eenvoudige opzet: vragen invoeren, antwoord genereren, laten beoordelen door inhoudsexperts van verschillende vakgroepen (mer, bouw, bodem, water etc.). De tool, ontwikkeld door internetbureau Swis, bekend van postbus42.nl, maakt gebruik van een ChatGPT-model. Het model is getraind op iplo.nl en staat in een afgeschermde omgeving op Europese servers.

De resultaten waren minder goed dan van te voren gehoopt. Arnoud: “Het model had veel moeite met de complexiteit van de vragen en de antwoorden waren in slechts de helft van de gevallen bruikbaar. Bronnen waren relevanter dan de antwoorden zelf. Experts zagen dat er vaak iets was wat niet klopte of ontbrak, maar zagen ook de potentie van de tool.”

In het vervolg van het experiment, dat nu loopt, is de aanpak veranderd. Experts zitten nu zelf achter de knoppen, in koppels van twee per vakgebied. Zestien testers in totaal, twee uur per week. Ze werken met geanonimiseerde, al afgehandelde vragen, zodat de tool de echte vraagbeantwoording niet beïnvloedt. Elke drie weken delen de deelnemers hun ervaringen met de hele groep. Het koppelmodel blijkt achteraf een succesvolle keuze. Arnoud: “Mensen doen sneller mee en haken minder snel af.”

De focus is verschoven van vraag-en-antwoord naar sparren. “Als een complexe vraag binnenkomt, ontleedt een expert die eerst. Wat zijn de elementen? Welke regelgeving is van toepassing? Wij willen weten of AI die stap kan ondersteunen.” De tool vraagt nu eerst of hij de vraag goed heeft begrepen voordat hij een antwoord geeft. Hij kan uitgebreid antwoorden of sparren, afhankelijk van wat de expert wil. Ondertussen is ook de kennisbank van de tool uitgebreid met wetten.overheid.nl en andere bronnen, om het probleem van ontbrekende informatie aan te pakken.

Maartje, zelf een van de testers voor het mer-domein, is positief over de nieuwe versie. “Het sparren met de tool werkt heel prettig, door de tussenvragen begrijpt de tool de vraag beter en kom je samen tot een goed inhoudelijk en leesbaar antwoord.”

Veelbelovend, maar nog niet live

In april 2026 wordt het huidige experiment afgerond. De resultaten zijn een stuk beter dan die uit 2024, maar de conclusie is dat het nog niet klaar is voor gebruik, maar wel dat de richting klopt. “We gaan door”, zegt Arnoud. “Eind 2026 of in 2027 willen we een volgende stap maken richting productie. Ofwel voor onze eigen inhoudsexperts, ofwel voor bezoekers van de website.” Voorwaarde daarvoor is betrouwbaarheid. Arnoud denkt aan een systeem waarbij elk antwoord een betrouwbaarheidsscore meekrijgt. Scoort het antwoord hoog? Dan is het mogelijk bruikbaar voor de vraagsteller. Zit er twijfel in? Dan verwijst de tool door naar een expert. “Een tweetraps-systeem. De AI als voorfase, de expert als achtervang.”

"We gaan door. Eind 2026 of in 2027 willen we een volgende stap maken richting productie."

Op de vraag hoe vaak de tool nu al een antwoord geeft dat nauwelijks verbetering behoeft, schat Maartje: zo'n 15%. Dat klinkt weinig, maar het percentage groeit. En voor Maartje en Arnoud is ook dat kleine aandeel al het bewijs dat de ontwikkeling de goede kant op gaat. Al zijn ze het er wel over eens dat AI de expertrol voorlopig niet overneemt. “De tool is niets zonder de kennis van de medewerkers”, zegt Arnoud. “Dat zie je bij ons dagelijks.” De boodschap die Alan Ehrlich in Bologna uitsprak, klinkt door in elk experiment bij IPLO.