1 miljoen paginas aan Woo-documenten in Woogle

De zoekmachine en verwijsindex WooGle voor documenten vrijgegeven na een Wob- of Woo-verzoek is vrijwel compleet. Daarmee bedoelen we dat alle via het internet in de herfst van 2022 publiek beschikbare Woo-dossiers opgehaald, geindexeerd en doorzoekbaar zijn. Het overzichtstaat eind December op bijna 7000 dossiers en meer dan een mljoen paginas. 

Meer dan 30% van deze paginas was niet machine leesbaar. We hebben daarom op alle paginas optische karakter herkenning (OCR) toegepast, en daarmee dus alle paginas full textdoorzoekbaar gemaakt. De grote meerderheid van publiek openbare dosiers staat ook daadwerkelijk op het internet, en Woogle kan daar dus naar verwijzen. Omdat het vaak om enorm lange stukken (vaak honderden paginas) gaat, verwijst Woogle direct naar de voor een zoekvraag meest relevante pagina (dit werkt als men het PDF bestand in Chrome via verwijs-URL opent). 

De aanbieders in WooGle

Woogle bevat Woo-dossiers van allerlei soorten aanbieders: ministeries, provincies, gemeentes en andere bestuursorganen. We zijn volledig voor de ministeries en provincies, en voor de 80 grootste gemeentes (mits ze minimaal zo’n 10 dossiers openbaar hebben, die ook redelijkerwijs zonder veel handwerk opgehaald kunnen worden). 

Ministeries

Ministeries publiceren hun woo-dossiers via open.overheid.nl, waar wij ze ook vandaan halen. Deze website lijkt redelijk stabiel, en we proberen dan ook up to date te blijven.

Provincies

Behalve Friesland en Noord Brabant publiceren alle provincies Woo-dossiers. Vanzelfsprekend allemaal weer op een net andere manier. In het precies ophalen moest veel handwerk worden gestoken, vooral voor de metadata. 

Gemeentes

We zijn van boven naar beneden door de lijst van gemeentes van Wikipedia geordend op inwoneraantal gelopen en hebben met Google gezocht naar hun pagina met gepubliceerde Woo besluiten. Alle gemeentes hebben wel een pagina waarin ze uiteggen hoe je een Woo-verzoek kunt doen. Maar slecht enkele maken de verstrekte documenten ook publiek openbaar. De gemeentes met meer dan zo’n 10 dossiers, die zonder echt “website hacken” opgehaald konden worden zijn geindexeerd. Dat zijn er op dit moment 6. De gemeente Waalwijk levert hun Woo-dossiers direct aan ons aan. Alleen bij de gemeente Amsterdam hebben we ook dossiers op een andere wijze via het stadsarchief ontvangen. Deze dossiers zijn alleen na een verzoek per mail beschikbaar, en dus niet op te halen. Ook kan de zoekmachine er niet naar verwijzen.

Overige bestuursorganen

Gewoon om eens te kijken hoe dat gaat hebben we Woo-dossiers van de politie (281) en de Universiteit van Amsterdam (85) toegevoegd. Het is lastig om een overzicht te krijgen van deze groep Woo-aanbieders.

Hij vindt iets niet. Het klopt niet.

Doordat we gedwongen zijn om optische karakter herkenning (OCR) toe te passen kunnen er gekke dingen gebeuren. We leggen dat hier uit.

Met OCR maken we woorden die mensen gewoon kunnen lezen ook leesbaar voor de computer. Je kan dan met Control F, of via een zoekmachine woorden (terug)vinden die eerst onvindbaar waren. Dit verhoogt dus de “pakkans”, en dat is practisch voor gebruikers.

Maar we moeten hiervoor wel een prijs betalen, en dat zijn gekke foutjes. Er zijn 3 gevallen:

  1. Ik wordt gestuurd naar een pagina waar zoekterm X op moet staan, maar hoe ik ook kijk, dat woord staat er niet.
    • Dan heeft de OCR een fout gemaakt en het woord X herkent terwijl het er niet stond.
  2. Ik zie juist X wel staan op een pagina, maar de zoekmachine vindt die pagina toch niet.
    • Dan heeft de OCR dat woord X niet goed kunnen herkennen. 
  3. Ik wordt gestuurd naar een pagina waar zoekterm X op moet staan, maar als ik met Control F zoek, dan wordt X niet gevonden.
    • Dan heeft de OCR het woord X herkent en toegevoegd aan onze zoekindex, maar op de website (bijvoorbeeld op overheid.nl) waar het document wordt gepubliceerd is die OCR niet toegepast, en is het document dus niet machine leesbaar en het woord X dus niet te vinden. Wij kunnen veel, maar geen documenten op websites van anderen verbeteren. 

Hoe nu verder?

Met vele uren vrijwillegerswerk hebben we Woogle kunnen vullen. Dit schaalt niet en is moeilijk up to date te houden. Vandaar dat we een manier hebben ontwikkeld waarmee bestuursorganen zelf hun Woo-dossiers aan ons kunnen aanleveren, waarna die automatisch in Woogle vindbaar worden. Dit kan op 2 manieren. 

De eerste is via een zogenaamde API, software die automatisch Woo-dossiers uit het zaaksysteem van een bestuursorgaan naar Woogle stuurt. Software ontwikkelaars als Visma en Notubiz maken dan de “vertaalslag” van het zaaksysteem naar Woogle. Er is verder voor het bestuursorgaan geen omkijken naar. Dit is heel goed te vergelijken met de manier waarop documenten vanuit zaaksystemen naar openraadsinformatie.nl gaan. Het grote voordeel hiervan is dat er maar een paar ontwikkelaars zijn, en dat die vertaalslag dus voor tientallen gemeentes meteen inzetbaar is. Dit schaalt dus prima.

De andere manier is goed geschikt voor bestuursorganen met maar sporadische Woo-verzoeken, en die misschien ook geen mogelijkheid tot publicatie hebben. De Woo-jurist die het verzoek heeft afgehandeld vult dan ook nog een web formuliertje in met wat informatie uit de besluitbrief, en stuurt dat naar Woogle. Na een check en akkoord door die jurist komt dat dossier dan ook in de zoek- en verwijs-index. Ook deze manier schaalt prima (wij schatten het extra werk op hooguit 10 minuten).

Deze twee acties komen in de loop van januari 2023 voor elk bestuursorgaan beschikbaar.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

Blog at WordPress.com.

%d bloggers like this: