Tytuł projektu
Półautomatyczna konstrukcja zasobów leksykalnych przez rozpoznawanie relacji semantycznych na podstawie danych morfo-syntaktycznych i semantycznych w korpusach tekstu
Numer grantu: N N516 068637
Opis projektu
Wordnet to słownik wyrazów bliskoznacznych, opis relacji semantycznych między wyrazami, źródło definicji znaczeń, hierarchia pojęć - wszystko to składa się na leksykalną bazę wiedzy. Oryginalny WordNet dla języka angielskiego, konstruowany od ponad 20 lat na Uniwersytecie Princeton, użyczył nazwy i struktury wielu takim bazom wiedzy dla innych języków. Bardzo liczne są komercyjne i badawcze zastosowania wordnetów w informatyce i inżynierii oprogramowania, nade wszystko w sztucznej inteligencji i zwłaszcza w przetwarzaniu języków. (Należy odnotować, że są one niemal zawsze swobodnie dostępne dla naukowców i projektantów systemów.)
Skuteczne wyszukiwanie informacji w nieustannie rosnącej ilości tekstu na Internecie wymaga starannej selekcji, w czym wordnety są z reguły bardzo pomocne.
Jak każdy słownik, wordnet musi zawierać informację dokładną i - na ile się da - kompletną, toteż konstrukcja nowego wordnetu kosztuje wiele wysiłku. Prace zainicjowane kilkanaście lat temu doprowadziły do powstania wstępnych wersji wordnetów dla szeregu języków europejskich i azjatyckich. Żadna z nich jednak nie dorównuje jeszcze rozmiarami WordNetowi angielskiemu. Koordynacja z WordNetem jest niezbędna, tłumaczenie go na inne języki wymagałoby natomiast czasochłonnego pełnego przeglądu bazy z uwagi na zwykle znaczne różnice typologiczne i kulturowe między językami. Dlatego to część zespołów budujących nowe wordnety przyjęła zasadę tworzenia bazy od podstaw w zgodzie ze specyfiką konkretnego języka. Praca nad swobodnie dostępnym polskim wordnetem, oparta na tym właśnie założeniu, rozpoczęła się cztery lata temu. Wersja wstępna zawiera ponad 15000 wyrazów powiązanych dziesięcioma relacjami. Dla pełnej użyteczności bazę należy powiększyć co najmniej o rząd wielkości. Osiągnąć ten cel w kilka lat można tylko wtedy, kiedy wprowadzi się częściową automatyzację pracy nad rozbudową wordnetu.
Inżynieria języka dostarcza przybliżonych metod wyliczania podobieństwa znaczeniowego między wyrazami na podstawie tekstów złożonych z milionów zdań. Poprzedni projekt wypracował kilka nowatorskich, wysoce dokładnych metod tego typu, i udostępnił je lingwistom wprowadzającym dane leksykalne. Głównym celem naukowym niniejszego projektu jest znaczące ulepszenie jakości tamtych metod i stworzenie kilku nowych, jeszcze skuteczniejszych metod. Ich obecne i przyszłe zastosowania wychodzą daleko poza wspomaganie konstrukcji wordnetów, a w samej dziedzinie wordnetów będą przydatne dla języków zasadniczo różnych od polszczyzny.