SuperMatrix to system wspierający automatyczne pozyskiwanie relacji semantycznych na podstawie analizy wielkich korpusów językowych. System został opracowany jako narzędzie szybkiego rozszerzania wordnetu języka polskiego (Słowosieci). Rozbudowa wordnetu odbywa się dwuetapowo: system podpowiada potencjalne powiązania między jednostkami leksykalnymi, po czym lingwista weryfikuje te podpowiedzi i decyduje w jakiej postaci trafią do Słowosieci. Dzięki temu osiągnęliśmy przyspieszenie prac przy zachowaniu wiarygodności wprowadzanych danych.

System analizuje konteksty wystąpienia danych jednostek leksykalnych i na tej podstawie liczy wartości różnych miar podobieństwa leksykalnego między jednostkami. Obliczenia takie dokonywane są na ogromnych macierzach (stąd nazwa systemu). Macierze określają cechy jednostek leksykalnych zgromadzone na podstawie analizy tekstu.

Zalety systemu:

  • modularna budowa,
  • obsługa ogromnych macierzy
  • możliwość wyboru spośród wielu miar podobieństwa między wektorami oraz metod transformacji macierzy,
  • wbudowany moduł oceny wydobytej miary podobieństwa znaczeniowego (warianty Wordnet-Based Synonymy Test),
  • wydajna implementacja macierzy rzadkich,
  • możliwość zapisu macierzy do formatów CLUTO, CCS, CRS,
  • integracja z formalizmem WCCL pozwalającym na odwołania do cech morfologiczno-składniowych tekstu.

SuperMatrix został udostępniony na licencji GPL. Kod można pobrać wykonując polecenie Gita:

git clone http://nlp.pwr.wroc.pl/supermatrix.git


System SuperMatrix został opisany w następujących pracach: