TaKIPI to tager języka polskiego, tj. narzędzie przypisujące znaczniki morfo-syntaktyczne kolejnym słowom w tekście.

Tager zakłada opis morfologiczno-składniowy zgodny z tagsetem Korpusu IPI PAN. Kontekstowe ujednoznacznienie przeprowadzane jest za pomocą niewielkiego zbioru reguł napisanych ręcznie oraz większej liczby reguł pozyskanych automatycznie za pomocą algorytmu indukcji drzew decyzyjnych C4.5. Podczas uczenia oraz działania tagera, kontekst wystąpienia każdego wyrazu w tekście reprezentowany jest jako wektor cech o stałej długości. Wektor taki uzyskiwany jest za pomocą napisanych ręcznie wyrażeń funkcyjnych formalizmu JOSKIPI, które odwołują się do cech morfologiczno-składniowych kontekstu.

Oprogramowanie dostępne jest na licencji GNU GPL 3.0. Jest ono współwłasnością Instytutu Informatyki Politechniki Wrocławskiej oraz Instytutu Podstaw Informatyki Polskiej Akademii Nauk. Tager można pobrać z dwóch źródeł:

  • Paczka zawierająca TaKIPI 1.8 w źródłowej postaci (pod Linuksa) i postaci pre-kompilowanej (Windows) dostępna jest na tej stronie.
  • Najnowsze źródła tagera dostępne są na repozytorium: svn://nlp.pwr.wroc.pl/takipi/.

Tager rozwijany jest pod systemem Linux i głównie tam jest testowany, w związku z czym zalecamy używanie wersji linuksowej. W przypadku wersji linuksowej polecamy przetestowanie wersji z repozytorium (zmiany wprowadzane są tam ostrożnie).

Dokładniejszy opis, możliwość przeglądania kodu on-line oraz miejsce na zgłaszanie błędów znajdują się na stronie trakowej.