SoNaR, Nieuwe Media Corpus beschikbaar

Het SoNaR Nieuwe Media Corpus bevat 35 miljoen woorden aan sms'en, tweets en chatberichten. Het corpus kan gebruikt worden om de spelling, de grammatica, het sentiment of het vocabulaire van uitingen in nieuwe media te onderzoeken.

De woorden van het corpus zijn automatisch getokeniseerd en voorzien van trefwoord (lemma) en woordsoortinformatie (part of speech).

 

De data werden verzameld binnen het STEVIN-project SoNaR en is alleen voor wetenschappelijk gebruik beschikbaar via de TST-Centrale.

 

Gegevens te vinden op de site van TST-Centrale

 

Het product is gratis te bestellen voor niet commerciele doeleinden.