Disaster (DISAmbiguator and STatistical chunkER) to pakiet oprogramowania w języku Python realizujący płaską analizę składniową (chunking) i ujednoznacznianie morfo-syntaktyczne (reimplementacja tagera TaKIPI). Pakiet jest rozwijany, w obecnej wersji zawiera:

  • moduł odczytu i zapisu korpusów w formacie XCES (dialekt ipipanowski), również rozszerzonych o anotację IOB (własna modyfikacja tego formatu, dodatkowy tag <iob>),
  • graficzny edytor płaskich anotacji składniowych,
  • prymitywny edytor oznakowania morfo-syntaktycznego (pozwala na zmianę tagów oznaczonych jako rozstrzygające, nie pozwala na dodawanie nowych),
  • reimplementację tagera TaKIPI z możliwością zmiany tagsetu (tagset jest parametryzowany),
  • reimplementację formalizmu JOSKIPI rozszerzonego o odwołania do płaskich fraz składniowych (chunks) i leksykonów,
  • implementację prostego analizatora płaskich fraz rzeczownikowych (NP chunker),
  • infrastrukturę analizatorów/tagerów, które pozwalają na odpalanie reguł JOSKIPI i innych etapów przetwarzania (np. tagera).

Pakiet został udostępniony na licencji GPL 3.0 — dostępny jest na tej stronie.

Dokładniejszy opis, możliwość przeglądania kodu on-line oraz zgłaszanie błędów można znaleźć na stronie trakowej.