Fextor jest narzędziem służącym do ekstrakcji cech ze zbiorów tekstów. Charakteryzuje się wysoką elastycznością, przy jednoczesnym zachowaniu wydajności i prostoty. 

Cechy są wydobywane na podstawie fragmentu tekstu, określanego w zalezności od typu wskaźnika (token, anotacja lub para anotacji). Umożliwia to jednoczesne generowanie wielu cech dla jednego dokumentu. 

Definiowanie nowych typów cech, może się odbywać poprzez implementację w pythonie lub za pomocą opisu w języku wccl.

Fextor wspiera dwa formaty korpusów - poliqarp oraz ccl. Wyekstrahowane cechy są zapisywane w formacie csv, z możliwością ich konwersji do formatu macierzowego, na użytek pakietu LexCSD.


Wybrane zastosowania dla wydobywanych przez Fextor cech:

  • klasyfikacja relacji derywacyjnych
  • rozpoznawanie relacji semantycznych pomiędzy nazwami własnymi
  • ujednoznacznianie znaczeń leksykalnych
  • ustalanie powiązań anaforycznych