27 juni 2025, 13:00, Lab 42, Zaal L.101, Science Park, Amsterdam.
Iedereen is welkom
Elk jaar hebben Jaap Kamps, David Graus en Maarten Marx wel zo’n 20 afstudeerders die “wat spannends doen met de Woo”. Die komen uit de bachelors en masters AI, Informatica en Informatiekunde van de UvA. In deze Woorkshop laten een aantal daarvan kort hun werk zien. De rode draad die in alle projecten zit is:
- alles moet zo veel mogelijk automatisch en schalen (géén handwerk);
- het onderwerp ligt op het snijvlak van openbaarmaking en informatiehuishouding;
- AI en zoek- of taal-technologie speelt een grote rol.
- als het even kan integreren we de resultaten in ons living lab Woogle;
Het achterliggende doel van al die projecten is om de geest van de Woo, overheid, deel je informatie met je burgers, te bevorderen. Maar goed, het blijft wetenschap, dus soms is dat wat zichtbaarder dan anders.
Programma
- 13:00 Korte introductie ICAI opengov lab, Woorkshop opzet
- 13:15 Blok 1: 5 afstudeerders verdedigen hun scriptie
- Informatie extractie op de Handelingen der Staten Generaal
- Verwijzingen naar documenten (Floris Bos, UvA/KOOP)
- Verwijzingen naar geldbedragen (David Kraakman)
- Software om Woo-verzoek proces te stroomlijnen bij “kleine” bestuursorganen (Jasper Hoogenhout, UvA Woo-team)
- WCAG toegankelijkheid van Woo documenten (Gregory Slager)
- Rol van overleg bij afhandeling Woo-verzoeken (Haady Hassan, UvA/ACOI)
- Informatie extractie op de Handelingen der Staten Generaal
- 14:45 Pauze
- 15:15 Blok 2: AI, Chatbots en de Woo
- Chatten met Woo documenten (RAG), hoe werkt dat? (Maik Larooij, UvA/Woogle)
- Update afstudeerders Archiefwetenschappen en Media en Cultuur Jaap Kamps (UvA)
- Update afstudeerders AI David Graus (UvA)
- Systematische weglatingen (omission bias) in ChatGPT-samenvattingen van toespraken (Kaan Sert)
- Synthetische data voor fine-grained NER op Handelingen der Staten-Generaal (Niels Barnhoon)
- Sentiment-analyse op basis van stemmingen op moties (Mark Broerse)
- 16:15 Afsluiting en borreltje
Na de Woorkshop voegen we aan deze pagina voor elk praatje hyperlinks naar de presentatie en naar de scriptie toe.
Slides en scripties
| Student | Presentatie | scriptie |
|---|---|---|
| Haady Hassan | presentatie | scriptie |
| David Kraakman | presentatie | scriptie |
| Jasper Hoogenhout | presentatie | scriptie |
| Floris Bos | presentatie | scriptie |
| Gregory Slager | presentatie | scriptie |
Samenvattingen
Verwijzen naar documenten in de Handelingen (Floris Bos MSc Informatica, stage KOOP)
In de debatten in de Tweede Kamer wordt veel naar zogenaamde Kamerstukken verwezen. Dat kan heel precies, zoals in de motie-Feenstra c.s. over de rol van het Rijk (24691, nr. 35), maar ook een stuk vager als in hoe denkt mevrouw Hermann om te gaan met de motie die zij in dit verband heeft ingediend. In samenwerking met KOOP ontwikkelen we software die die verwijzingen opspoort en het bedoelde stuk erbij vindt. Hiermee kunnen we dus al die gemaakte verwijzingen ook via een hyperlink echt laten verwijzen naar het juiste Kamerstuk. Dat scheelt een hele hoop opzoekwerk.
Verwijzen naar bedragen in de Handelingen (David Kraakman, BSc Informatiekunde)
In de Tweede Kamer wordt veel over geld gesproken? Kunnen we automatisch die bedragen detecteren, uit de zin halen, omzetten naar een echt bedrag waar je mee kunt rekenen, en als belangrijkste, dat bedrag verbinden met datgene waar het naar verwijst? Hier is een voorbeeld:
Illegale activiteiten droegen in 2021 4,5 miljard bij aan de Nederlandse economie.
Detecteren en omzetten kunnen we vrijwel foutloos. Het verbinden is een stuk moeilijker. Dat kan door de zin met een computer te ontleden, maar ook door het aan een LLM als ChatGPT te vragen. Die laatste methode werkt net wat beter.
Software om Woo-verzoek proces te stroomlijnen bij “kleine” bestuursorganen (Jasper Hoogenhout, MSc Information Studies)
Bij het beantwoorden van een Woo-verzoek komt heel wat logistiek en administratie kijken. “Kleine” bestuursorganen kunnen hier geen dure software voor kopen of een speciale ITer voor inhuren, en doen het dus zelf met allerlei folders en spreadsheets. Op basis van bestaande gratis en open source software ontwikkelden we een “workflow” waarmee het hele beantwoordings-proces van een Woo-verzoek gestroomlijnd kan worden. Het laat zien wat er nog moet gebeuren en wat al klaar is in een dashboard, het maakt full-text zoeken in alle aangeleverde stukken (ook screenshots van appjes) mogelijk, kan duplicaten ontdekken, en zorgt voor een helder overzicht.
WCAG toegankelijkheid van Woo documenten (Gregory Slager, MSc Information Studies)
Openbaarmaken betekent nog niet dat stukken ook toegankelijk zijn. Dit speelt nog eens extra voor mensen met een visuele beperking. Voor hen zijn er de WCAG toegankelijkheids richtlijnen, waar openbaargemaakte overheidstukken aan moeten voldoen. Echter, dit is slechts in 1 promille van de stukken het geval. We laten zien dat een hoop van deze toegankelijkheidsfouten zowel vermijdbaar als oplosbaar zijn, vaak automatisch met behulp van AI. Het automatisch oplossen van die fouten en toevoegen van goede metadata maakt de stukken beter toegankelijk voor mensen en voor machines.
Rol van vroegtijdig overleg bij afhandeling Woo-verzoeken (Haady Hassan, BSc Informatiekunde, stage ACOI)
Onderzoek over de rol van vroegtijdig contact tussen Woo-verzoekers en bestuursorganen bij het bevorderen van wederzijds begrip en vertrouwen, en op de wijze waarop de zoekslag – het vinden van documenten – wordt verantwoord. Uit interviews en enquêtes blijkt dat persoonlijk en tijdig contact het vertrouwen kan versterken, mits dit doelgericht en constructief wordt ingezet. De verantwoording van zoekslagen blijkt in veel gevallen beperkt; verbetering is mogelijk door duidelijke richtlijnen op te stellen over wat in het eindbesluit verantwoord moet worden, waaronder –maar niet beperkt tot– expliciete vermelding van gebruikte systemen, zoektermen, doorzochte periodes en betrokken medewerkers.
Chatten met Woo documenten (Maik Larooij, UvA, “man achter Woogle”)
Maik laat zien hoe je een systeem kunt opzetten waaraan je vragen kunt stellen over een beperkte verzameling Woo documenten. Dit gaat vaak met Retrieval Augmented Generation (RAG). Hierin worden zoek- en taal-technologie gecombineerd. Eerst worden er “snel en goedkoop” een flink aantal voor de vraag relevante passages opgehaald, die worden dan “duur” opnieuw geordend op relevantie waarna de beste N (meestal tussen de 5 en 10) aan een chatbot worden gegeven die dan opgedragen wordt om alleen op basis van die passages een echt antwoord te formuleren.
Systematische weglatingen (omission bias) in ChatGPT-samenvattingen van toespraken (Kaan Sert, BSc AI)
De Wet open overheid vraagt om toegankelijke, complete overheidsinformatie. LLM’s zoals GPT-4 kunnen toespraken razendsnel samenvatten, maar laten soms ongemerkt belangrijke onderwerpen weg. Daarom ontwikkeld Kaan Sert een referentievrij framework dat zulke ‘omission bias’ automatisch opspoort en tegengaat. We lieten GPT-4 140 Nederlandse ministeriële toespraken samenvatten en gebruikten een twee-staps classifier om eerst brede beleidsthema’s en daarna subthema’s te labelen; elk thema dat in de bron wél, maar in de samenvatting níet voorkomt, telt als weglating. Analyse van deze weglatingen bracht systematische vertekening aan het licht, waarna een human-in-the-loop correctiestrategie de bias merkbaar verkleinde. Het resultaat: samenvattingen die écht compleet zijn en zo de Woo-doelstellingen van transparantie en verantwoording beter ondersteunen.
Synthetische data voor fine-grained NER op Handelingen der Staten-Generaal (Niels Barnhoon)
WooGLe omvat een groot aantal parlementaire handelingen, maar wie zoekt naar specifieke personen, partijen of overheidsinstanties verdwaalt al snel. Handmatige annotatie om Named Entity Recognition (NER) hiervoor te trainen is te kostbaar, terwijl standaard NER-labels tekortschieten voor de politieke context. Deze studie gebruikt Large Language Models als ‘datafabriek’: met In-Context Learning genereert GPT synthetische, fijnmazig gelabelde voorbeelden (o.a. politieke partij, ministerie, ngo). Die kunstmatige dataset dient om een Nederlandse BERT-model bij te trainen en wordt vergeleken met de prestaties van een ongefinetunede versie. Eerste resultaten tonen dat synthetische data het model aanzienlijk robuuster maakt in een low-resource domein, waardoor onderzoekers parlementaire Handelingen sneller en preciezer kunnen doorzoeken – en de transparantiedoelen van de Woo dichterbij komen.
Sentiment-analyse op basis van stemmingen op moties (Mark Broerse)
Om te begrijpen hoe partijen in debatten zich tegenover elkaar verhouden, kunnen we stemgedrag (op moties) en spreektekst (uit motiedebatten) gebruiken. In dit project wordt eerst met een simpele Python-methode een dataset gemaakt die stem-labels (‘voor’ of ‘tegen’) uit stemmingen haalt, gekoppeld aan unieke motienummer. Die motienummers worden gebruikt om debatten erbij te halen, om van elke spreker, zijn/haar partij, elke uitspraak van het uiteindelijke stem-label te voorzien, om zo een rijke dataset te bouwen. Per motie trainen we een Nederlands BERT-model om stemgedrag te voorspellen, testen we de generaliseerbaarheid op andere moties, en vergelijken we met één alles-omvattend model. Met metrics als F1, accuracy en label-balans onderzoeken we onder meer of modellen beter scoren bij gebalanceerde stemverhoudingen en of ‘verwante’ moties (bijv. rond coronabeleid) elkaars voorspelling verbeteren. Het resultaat: een reproduceerbare workflow die kwantificeert hoe ver fracties uit elkaar liggen en welke thema’s de polarisatie het hardst voeden.

Een gedachte over “UvA opengov ICAI lab Woorkshop 2025”