Lista frekwencyjna
Na tej stronie można ściągnąc listy frekwencyjne wydobyte z dużych korpusów tekstów. W skład tekstów wchodzą m.in. Korpus IPI PAN, Korpus Rzeczpospolitej, Wikipedię (zrzut z początku 2010 roku) i zbiór dużych dokumentów ściągniętych z Internetu. Razem korpusy mają około 1.8 miliarda tokenów. Do wygenerowania listy frekwencyjnej zostały wykorzystane narzędzia wchodzodzące w skład systemu SuperMatrix (Broda and Piasecki 2011).
Listę frekwencyjną udostępniamy w dwóch postaciach:
- frequency_list_orth.txt - zawiera klasę gramatyczną, formę podstawową, formę tekstową i częstość w korpusach
- frequency_list_base.txt - zawiera formy podstawowe słów i ich częstości w korpusach
Uwaga! Dane udostępniamy na licencji Creative Commons (CC BY-NC-SA 3.0)
References
- Broda, Bartosz, Maciej Piasecki. 2011. Parallel, Massive Processing in SuperMatrix -- a General Tool for Distributional Semantic Analysis of Corpora. International Journal of Data Mining, Modelling and Management.