Alle data in de Woogle zoekmachine is nu beschikbaar voor iedereen. De datadump wordt elke nacht ververst. Een statische dump staat bij DANS Easy op https://doi.org/10.17026/dans-zau-e3rk. De dump die elke nacht ververst wordt staat, onder wachtwoord, op https://surfdrive.surf.nl/files/index.php/s/NEpv6uiFwvigxqx. Neem contact op met Maarten Marx voor toegang. De data is beschikbaar in 3 csv files samen met een aantal notebooks die tonen wat er in de dataset zit, wat de kolommen betekenen, en hoe je ermee om kunt gaan.
De PDFs staan niet in de dump, maar wel alle onderliggende tekst plus alle metadata. De bron URLs van de PDFs staan er wel in, dus die zijn ook allemaal makkelijk op te halen. De data bevat zowel de originele onderliggende tekst als een, vaak veel betere, OCR gedaan met Tesseract.
De hele datadump is nu 800 Mb. De dataset met alle PDFs beslaat ondertussen al zo’n 200 Gb. Zonder al die overhead van de ingescande stukken is de data dus 250 keer kleiner, met vrijwel dezelfde informatie inhoud.
Een gedachte over “Woogle data nu vrij beschikbaar”