UIt onderzoek van Woogle bleek dat vrijwel geen enkel PDF document op open.overheid.nl door de pdfchecker.nl toegankelijkheidscheck komt. Verschillende studenten Informatica aan de UvA hebben geprobeerd die PDFs automatisch te repareren. Omdat het om miljoenen paginas gaat, en handmatige reparatie tot wel 7 Euro per pagina kost, is volgens ons alleen zo’n aanpak haalbaar.
De studenten hebben het probleem in kaart gebracht, en kunnen al een flink aantal van de fouten oplossen. Het lastigste is om te weten wat er aan de PDF toegevoegd moet worden. Dat zijn dingen als
- de taal waarin een stuk geschreven is (goed zeer nauwkeurig automatisch te bepalen)
- een alternatieve tekst voor een plaatje, een tabel of een hyperlink (belangrijk voor voorleessoftware), is al een stuk lastiger automatisch correct te bepalen, maar AI komt hier als best ver mee (image caption generation)
- metadata als de auteur, sleutelwoorden, een titel en een korte samenvatting van het document (een leuke en best lastige uitdaging voor AI).
