LexCSD (Lexicographer-Controlled Semi-automatic Sense Disambiguation) to system umożliwiający półautomatyczne ujednoznacznianie znaczeń leksykalnych słów. Algorytm opiera się o grupowanie fragmentów tekstu ze słowem niejednoznacznym. Każda z grup może być opcjonalnie, ręcznie etykietowana na podstawie automatycznie wydobytych reprezentatywnych przykładów użycia znaczeń. Otrzymane wyniki (przechowywane w formacie macierzowym) służą do konstrukcji klasyfikatora. Uzyskany w ten sposób klasyfikator, może zostać zastosowany do ujednoznacznienia wcześniej niewidzianego tekstu.

System został podzielony na moduły:

  • ltcore - pakiet zawierający strukturę formatu macierzowego oraz operacje na nim wykonywane
  • ltcluster - pakiet odpowiedzialny za grupowanie kontekstów oraz generowanie przykładów użycia
  • ltlearn - pakiet odpowiedzialny za klasyfikację, umozliwia wykorzystanie zewnętrznych narzędzi (weka, shogun)


Narzędzie umożliwia między innymi:

  • grupowanie kontekstów
  • automatyczny wybór najlepszego algorytmu grupowania
  • prezentowanie przykładów użycia dla każdego ze znaczeń
  • wprowadzenie przez użytkownika etykiet znaczeń leksykalnych
  • duży wybór klasyfikatorów
Oprogramowanie będzie wkrótce dostępne na licencji GNU GPL 3.0 .