Lista dystrybucyjnego podobieństwa semantycznego
(Uwaga! Strona w budowie / Under construction)
Dystrybucyjne Podobieństwo Semantyczne (DPS, ang. Measure of Semantic Relatedness) obrazuje podobieństwo pomiędzy parami wyrazów na podstawie analizy ich współwystępowania w korpusach tekstów. Ogólną sposób wydobywania podobieństwa można przedstawić następująco. W pierwszej kolejności wszystkie konkteksty interesujących słów są analizowane pod kątem współwystępowania z innymi słowami. Na podstawie częstości współwystąpień budowana jest macierz M, w której wiersze odopowiedają słowom, dla których liczone jest podobieństwo. Kolumny wyrażają cechy słów, które w najprostszym ująciu są słowami występującymi w kontekstach słów z wierszy. Macierz M jest macierzą rzadką o bardzo dużych rozmiarach (dziesiątki tysięcy wierszy, setki tysięcy kolumn). W następnym korku wartości w macierzy są filtrowane i ważone. Krok ten ma na celu usunięcie przypadkowych współwystąpień jak i służy rozróżneinieu pomiędzy istotną informacją zawartą w macierzy a akcydentalną. Jedną z wag dobrze sprawdzających się w tym zadaniu jest np. punktowa informacja wzajemna. Wiersze przetransformowanej macierzy można już porównywać wykorzystująć np. miarę konsunusową.
Współwystępowanie można rozumieć w różny sposób: od prostego odnotowania słów w oknie tekstowym o ustalonym rozmiarze, poprzez sprawdzawdzanie ograniczeń składniowych pomiędzy słowami (np. uzgodnienia pomiędzy rzeczownikiem a przymiotnikiem), po wykorzystanie relacji składniowych z parserów zależnościowych. Udostępnione na tej stronie listy wykorzystują podejście oparte na ograniczeniach morfo-syntaktycznych. Dokładniejszy opis wykorzystanego podejścia można znaleźć w pracach: (Piasecki, Szpakowicz and Broda 2007), (Broda et al 2008), (Piasecki, Szpakowicz and Broda 2009) i (Broda and Piasecki 2011).
Na liście dystrybucyjnego podobieństwa semantycznego dla każdego opisanego słowa zostają wypisane k najbardziej podobnych słów do niego. Listy takie można pozyskać używając systemu SuperMatrix. Na dole strony można pobrać dwie listy podobieństwa: dla rzeczowników (kgr4_pmi_cos_filtered_TF100_20best.7z) i czasowników (kgr3_verbsim_lincos_TF100_20best.7z). Po rozpakowaniu listy mają prosty format tekstowy. Dla przykładu:
subst:truskawka
0.396929 subst:pomidor
0.374989 subst:winogrono
0.36221 subst:brzoskwinia
0.359661 subst:ananas
0.358338 subst:czereśnia
0.347417 subst:porzeczka
0.343161 subst:jabłko
0.340363 subst:wiśnia
0.333139 subst:śliwka
0.321351 subst:filogeneza
0.314859 subst:malina
0.313577 subst:seler
0.308124 subst:papryka
0.30514 subst:warzywo
0.302994 subst:melon
0.301603 subst:figa
0.301409 subst:kalafior
0.299205 subst:marchew
0.298587 subst:kukurydza
0.297907 subst:pomarańcza
Powyższy zapis pokazuje 20 najbardziej podobnych wyrazów dla słowa truskawka. Liczby po lewej stornie oznaczają podobieństwo - im wyższa liczby, tym wyraz jest bardziej podobny do truskawka.
Uwaga! Dane udostępniamy na licencji Creative Commons (CC BY-NC-SA 3.0). W wypadku wykorzystania list podobieństwa uprzejmie prosimy o cytowanie pracy: (Broda and Piasecki 2011).
References
- Broda, Bartosz, Maciej Piasecki. 2011. Parallel, Massive Processing in SuperMatrix -- a General Tool for Distributional Semantic Analysis of Corpora. International Journal of Data Mining, Modelling and Management.
- Broda, Bartosz and others. 2008. Corpus-based Semantic Relatedness for the Construction of Polish WordNet. In Proceedings of the Sixth International Language Resources and Evaluation (LREC'08), ed. (ELRA), European Language Resources Association. Marrakech, Morocco, May.
- Piasecki, Maciej, Szpakowicz, Stanisław, Bartosz Broda. 2007. Automatic Selection of Heterogeneous Syntactic Features in Semantic Similarity of Polish Nouns.
- Piasecki, Maciej, Szpakowicz, Stanisław, Bartosz Broda. 2009. A Wordnet from the Ground Up. Wroclaw : Oficyna Wydawnicza Politechniki Wroclawskiej