LexCSD (Lexicographer-Controlled Semi-automatic Sense Disambiguation) to system umożliwiający półautomatyczne ujednoznacznianie znaczeń leksykalnych słów. Algorytm opiera się o grupowanie fragmentów tekstu ze słowem niejednoznacznym. Każda z grup może być opcjonalnie, ręcznie etykietowana na podstawie automatycznie wydobytych reprezentatywnych przykładów użycia znaczeń. Otrzymane wyniki (przechowywane w formacie macierzowym) służą do konstrukcji klasyfikatora. Uzyskany w ten sposób klasyfikator, może zostać zastosowany do ujednoznacznienia wcześniej niewidzianego tekstu.
System został podzielony na moduły:
- ltcore - pakiet zawierający strukturę formatu macierzowego oraz operacje na nim wykonywane
- ltcluster - pakiet odpowiedzialny za grupowanie kontekstów oraz generowanie przykładów użycia
- ltlearn - pakiet odpowiedzialny za klasyfikację, umozliwia wykorzystanie zewnętrznych narzędzi (weka, shogun)
Narzędzie umożliwia między innymi:
- grupowanie kontekstów
- automatyczny wybór najlepszego algorytmu grupowania
- prezentowanie przykładów użycia dla każdego ze znaczeń
- wprowadzenie przez użytkownika etykiet znaczeń leksykalnych
- duży wybór klasyfikatorów
Oprogramowanie będzie wkrótce dostępne na licencji GNU GPL 3.0 .