BasiLex - kindertaalcorpus en lexicon

BasiLex is een verzameling teksten die geschreven zijn voor kinderen, bestaande uit 11,5 miljoen woorden die verrijkt zijn met trefwoord (lemma) en woordsoortinformatie (part of speech).

Uit dit corpus wordt een lexicon van 20.000 woorden geëxtraheerd met tellingen en taalkundige annotaties. Het project is een samenwerking van de Radboud Universiteit Nijmegen, Universiteit van Tilburg, de Universiteit van Amsterdam en de Universiteit Leiden.

 

Binnenkort verwacht in de catalogus van TST-Centrale