Jan Hutter van het Woogle team is bezig met het opzetten van “Chatten met een Woo dossier”. Het idee is dat toegang tot vaak heel grote Woo-dossiers veel makkelijker is via een chatbot die niet alleen een antwoord geeft op een concrete vraag, maar je dan ook precies naar de juiste plek in het juiste vrijgegeven document brengt waar dat antwoord dan staat.
Onze proef chatbot gaat over 2 Woo dossiers over de excuses voor het slavernijverleden, met meer dan 600 documenten en meer dan 2000 pagina’s.
Een leuk voorbeeld is de vraag Hoe laat had Eric van der Burg zijn ontbijt op 19 december 2022?
We zien dat de bot op verschillende momenten verschillende antwoorden geeft, ook met verwijzingen naar verschillende stukken. Uit deze vraag blijkt al dat er nog flink wat te verbeteren valt! Want wat valt op
- De ene keer antwoord hij 7:45, de andere keer 8:45. 7:45 lijkt correct.
- Er zijn verschillende documenten met een tijdsschema van Eric van der Burg, ook voor die bewuste dag. Maar de bot refereert ook wel eens aan een tijdschema van iemand anders.
- De highlighting mag nog wel wat meer toegespitst op het antwoord.
Evaluatie van een chatbot
Het nauwkeurig opmeten van de kwaliteit van zo’n chatbot is nog helemaal niet zo makkelijk! Er zitten zoveel aspecten aan. En daarnaast kan het erg duur zijn. De typische manier van zo’n evaluatie binnen de AI is om mensen de antwoorden te laten geven op een aantal vragen, die antwoorden neem je dan als de gouden standaard, en die vergelijk je vervolgens met de antwoorden van de chatbot. Het samenstellen van zo’n verzameling vragen en “juiste” antwoorden kan erg tijdrovend zijn. Daarnaast is die vergelijking nog helemaal niet zo vanzelfsprekend. Aspecten die je wilt meenemen in zo’n kwaliteitsbeoordeling zijn:
- Hallucineert de chatbot niet? Komen de antwoorden echt uit het Woo-dossier? Is de bot niet tè behulpzaam? Dus als er in het Woo-dossier geen antwoord te vinden was, geeft hij dat dan toe? Of gaat ie wat fabuleren?
- Kloppen de gegeven verwijzingen? Zijn ze correct, zijn er niet te veel? Zijn de juiste gevonden?
- Is het taalgebruik vloeiend en fijn leesbaar?
- Vindt de chatbot het antwoord als het erin staat? En verwoordt hij het dan ook correct?
- etc
Genoeg reden om hier onderzoek naar te doen dus. De wens om dit te doen is duidelijk aanwezig. Er zijn ook al bestuursorganen die zo’n chatbot over hun Woo-stukken hebben draaien, zoals Coevorden.


