KPWr (Korpus Języka Polskiego Politechniki Wrocławskiej, ang. Polish Corpus of Wrocław University of Technology) jest zbiorem dokumentów tekstowych dostępnych na licencji Creative Commons. Dokumenty zostały otagowane przy pomocy narzędzia wcrft2 i opisane różnymi typami informacji takimi jak jednostki identyfikacyjne, wyrażenia temporalne, frazy składniowe, znaczenie słów (pełna lista znajduje się w sekcji Indeksy i statystyki elementów).

Statystyki najnowszej wersji korpusu (1.2)

PodkorpusDokumentyTokeny
liczba%liczba%
blogi 171 10,48% 52793 11,80%
dap (dłuższe artykuły prasowe) 132 8,09% 41181 9,20%
dialog 91 5,58% 30070 6,72%
kap (krótsze artykuły prasowe) 221 13,55% 34284 7,66%
nauka 87 5,33% 28269 6,32%
popularno-naukowe i podręczniki 73 4,48% 22463 5,02%
proza dawna 86 5,27% 36094 8,06%
proza współczesna 42 2,58% 19101 4,27%
religijne 9 0,55% 5357 1,20%
stenogramy 79 4,84% 32297 7,22%
techniczne 17 1,04% 4373 0,98%
urzędowe 62 3,80% 18890 4,22%
ustawy 80 4,90% 31620 7,06%
wikinews 123 7,54% 28264 6,31%
wikipedia 358 21,95% 62520 13,97%
 1631 447576 

Indeksy i statystyki elementów

Indeksy wskazują, które dokumenty zostały opisane danym rodzajem informacji.

IndeksDok.An.Rel.Lem.
NazwaZawartość
index_chunks.list  Frazy składniowe 307 94831 - 5772
index_chunks_rel.list  Relacje między frazami składniowymi  305 - 11029 -
index_names.list  Jednostki identyfikacyjne/nazwy własne 1343 28816 - -
index_names_lemma.list  Lematyzacja jednostek identyfikacyjnych 1343 - - 28697
index_names_rel.list  Relacje semantyczne między jednostkami identyfikacyjnymi 1118 - 3512 -
index_wsd_nv.list  Ujednoznacznione znaczenia słów 1179 13555 - -
index_spatial.list  Wyrażenia przestrzenne (wyznaczniki) 1526 7873 - -
index_spatial_rel.list  Wyrażenia przestrzenne (połączenia) 1531 - 5695 -
index_zero_verb.list  Czasowniki z podmiotem domyślnym 969 7111 - -
index_keywords.list  Tekstowe słowa kluczowe 1629 10552 - -
index_timex.list  Wyrażenia temporalne 1630 12726 - -
index_timex_local.list  Lokalna normalizacja wyrażeń temporalnych 1606 - - 5967
index_timex_global.list  Globalna normalizacja wyrażeń temporalnych  1630 - - 5789
index_events.list  Sytuacje (wyznaczniki) 333 8686 - -
index_events_g0.list  Sytuacje (wyznaczniki) zbiór gold #0  101 3077 - -
index_events_g1.list  Sytuacje (wyznaczniki) zbiór gold #1 50 2357 - -
index_events_g2.list  Sytuacje (wyznaczniki) zbiór gold #2  50 2364 - -
index_events_g3.list  Sytuacje (wyznaczniki) zbiór gold #3  34 1321 - -
index_serol.list  Role semantyczne 1037 2199 1401 -
index_coref.list  Koreferencja 50 4868 8926 -

Podgląd

Jednostki identyfikacyjne

Toronto Dominion Centre

Toronto Dominion Centre - kompleks handlowo-kulturalny w kanadyjskim mieście Toronto, w Financial District. Składa się z 3 czarnych budynków, zaprojektowanych przez architekta Ludwiga Mies van der Rohe.

Budynki tworzą odgrodzony od ulic dziedziniec, na którym Joe Fafard ustawił 6 odpoczywających krów z brązu. Pomiędzy budynkami stoi także wielkie krzesło. W południe odbywają się koncerty jazzowe.

W kompleksie znajduje się jedna z najważniejszych galerii sztuki Inuitów Toronto Dominion Gallery of Inuit Art.

Wyrażenia przestrzenne

Toronto Dominion Centre

Toronto Dominion Centre - kompleks↷1↷2 handlowo-kulturalny 1w kanadyjskim mieście↷1 Toronto, 2w Financial District↷2. Składa się z 3 czarnych budynków, zaprojektowanych przez architekta Ludwiga Mies van der Rohe.

Budynki tworzą 3odgrodzony od ulic↷3 dziedziniec↷3, 4na którym↷4 Joe Fafard ustawił 6 odpoczywających krów↷4 z brązu. 5Pomiędzy budynkami↷5 stoi także wielkie krzesło↷5. W południe odbywają się koncerty jazzowe.

6W kompleksie↷6 znajduje się jedna↷6 z najważniejszych galerii sztuki Inuitów Toronto Dominion Gallery of Inuit Art.

Format

Każdy dokument jest zapisany w trzech plikach, które zawierają następujące informacje:

  • *.xml (plik CCL) - zawiera tokenizację, podział na zdania, analizę morfologiczną tekstu, anotacje oraz lematy,
  • *.rel.xml (plik CCL-REL) - zawiera relacje między anotacjami,
  • *.ini (plik INI) - zawiera metadane dokumentu.

Szczegółowy opis formatów CCL i CCL-REL znajduje się na tej stronie: CCL_format.

Licencja

Korpus KPWr udostępniany jest na licencji Creative Commons Attribution 3.0 Unported Licence http://creativecommons.org/licenses/by/3.0/legalcode.

Releases

KPWr 1.2 (soon)

  • soon

KPWr 1.1 (26.01.2013)

  • Includes only clean (verified) documents.
  • Increased number of semantic relations — the rare semantic relations were also included.
  • Changes in relation names:
    • "Anaphora" to "Coreference"
    • "ref: nw – nw" to "coreference_pn"
    • "ref: agp – nw (bez zaimków osobowych)" to "coreference_agp"
    • "ref: podmiot zerowy – nw" to "coreference_zero"
    • "ref: zaimki osobowe – nw" to "coreference_pron"
  • Includes semantic relations between "wyznacznik" and names (*_coref relations).
  • The annotations of syntactic chunk heads were converted to token attributes (following CCL specification).
  • 'index_names_rel.txt' changed to 'index_name_rel.txt'
  • 'index_anaphora.txt' changed to 'index_coref.txt'

KPWr 1.0 (26.11.2012)

First official release

References

  • Bartosz Broda, Michał Marcińczuk, Marek Maziarz, Adam Radziszewski, Adam Wardyński. KPWr: Towards a Free Corpus of Polish. Proceedings of LREC'12, 2012.
  • Michał Marcińczuk, Marcin Oleksy, Jan Kocoń, Tomasz Bernaś, Michał Wolski. Towards an event annotated corpus of Polish. Cognitive Studies | Études cognitives, 2015.
  • Adam Radziszewski, Marek Maziarz, Jan Wieczorek. Shallow syntactic annotation in the Corpus of Wrocław University of Technology. Cognitive Studies, 2012.

Attachments:
Download this file (kpwr-1.0.7z)kpwr-1.0.7z[Korpus KPWr, wersja 1.0]4268 kB
Download this file (kpwr-1.1.7z)kpwr-1.1.7z[Korpus KPWr, wersja 1.1]3493 kB