Lista frekwencyjna

Na tej stronie można ściągnąc listy frekwencyjne wydobyte z dużych korpusów tekstów. W skład tekstów wchodzą m.in. Korpus IPI PAN, Korpus Rzeczpospolitej, Wikipedię (zrzut z początku 2010 roku) i zbiór dużych dokumentów ściągniętych z Internetu. Razem korpusy mają około 1.8 miliarda tokenów. Do wygenerowania listy frekwencyjnej zostały wykorzystane narzędzia wchodzodzące w skład systemu SuperMatrix (Broda and Piasecki 2011).

 

Listę frekwencyjną udostępniamy w dwóch postaciach:

  • frequency_list_orth.txt - zawiera klasę gramatyczną, formę podstawową, formę tekstową i częstość w korpusach
  • frequency_list_base.txt - zawiera formy podstawowe słów i ich częstości w korpusach

Uwaga! Dane udostępniamy na licencji Creative Commons (CC BY-NC-SA 3.0)

 

References

 

 

 

Attachments:
Download this file (frequency_list_base.7z)frequency_list_base.7z[Lista frekwencyjna form bazowych]6330 kB
Download this file (frequency_list_orth.7z)frequency_list_orth.7z[Lista frekwencyjna form tekstowych]20277 kB