Machine leesbaarheid

Update 2023-02-14 Uit de stukken vrijgegeven na Kamervragen van Pieter Omtzigt blijkt dat wat beschreven wordt in deze blogpost al bekend was in Maart 2021. En dat het al was opgelost voor de covid wob verzoeken. In het verslag van het Interdepartementaal Woo overleg van 21 Maart staat: Opgemerkt wordt dat pdf’s niet (altijd) voldoen aan eisen van toegankelijkheid, in het bijzonder op doorzoekbaarheid, m.n. of documenten zijn ge-OCR-d of niet. Dit gaat waarschijnlijk alleen over rijksoverheid.nl; bij platform corona is dit achter de schermen al namelijk ingebouwd (wordt ieder document omgezet).

Machine leesbaarheid van documenten omvat verschillende zaken, maar een basisvoorwaarde is wel dat de woorden die je als mens ziet in een PDF ook door een computer te lezen zijn. Je kunt dit testen door in een PDF-lezer met Control F te zoeken op een woord dat je ziet staan (Meta F op een mac). Wordt het niet gevonden dan is (op z’n minst een deel van) die pagina niet machine leesbaar. Een andere test is te proberen om iets te kopiëren uit een PDF.

Wij hebben voor de 700 duizend pagina’s aan documenten vrijgegeven na Woo/Wob -verzoeken gekeken of ze machine leesbaar waren. Dat is slechts zo voor 74% van alle pagina’s. Dat betekent dat die pagina’s eigenlijk niet meer terug te vinden zijn. Gelukkig gebruiken we optische karakter herkenning (OCR) in Woogle om daarmee ook de tekst op die pagina’s leesbaar en dus doorzoekbaar te maken.

Een uitsplitsing van het percentage niet machine leesbare pagina’s per Woo-aanbieder staat hieronder. Het is leuk te zien dat een kleine gemeente als Waalwijk met 98% het beste scoort. Dit betekent dat maar 2 van elke 100 pagina’s geen enkel karakter bevatten. Dit kunnen natuurlijk ook lege pagina’s zijn, pagina’s waarop alles is zwart gelakt of pagina’s met een pagina grote afbeelding.

Het publiceren van documenten zonder machine leesbare tekst is sowieso in strijd met iedere standaard over toegankelijkheid [1-3], en bijvoorbeeld nodig voor de leessoftware van blinde en slechtziende burgers.

[1] W3C WCAG: https://en.wikipedia.org/wiki/Web_Content_Accessibility_Guidelines 

[2] EU 301 549: https://en.wikipedia.org/wiki/EN_301_549 

[3] Een toegankelijke digitale overheid: https://www.digitoegankelijk.nl/ 

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

Blog at WordPress.com.

%d bloggers like this: