Toki to tokeniser, tj. konfigurowalny moduł do podziału tekstu na segmenty (tokeny) i zdania.
Narzędzie ma kilka zalet:
- obsługa unikodu,
- implementacja w C++ (nie ma więc dużego narzutu na uruchomienie),
- reguły podziału na tokeny definiowane są w prosty plikach INI,
- do każdego tokenu reguły mogą przypisać etykietkę określającą wstępną klasyfikację (np. liczba, data, ciąg z łącznikiem),
- do każdego tokenu przypisywana jest przybliżona informacja o ilości białych znaków, które przed nim nastąpił;
- Toki dostępny jest jako proste narzędzie konsolowe oraz biblioteka dynamiczna z prostym API (przykład użycia API dostępny wraz z kodem),
- obsługa standardu SRX opisującego reguły podziału na zdania; jest to prawdopodobnie pierwsza open source'owa implementacja tego standardu w C++;
- wraz z kodem dostarczamy reguły podziału na zdania autorstwa Marcina Miłkowskiego.
Kody źródłowe
Kody źródłowe projektu udostępniono na licencji GNU GPL 3.0. Znajdują się one na repozytorium gitowym:
git clone http://nlp.pwr.wroc.pl/toki.git
Instalacja
Instalacja narzędzia wymaga następujących zależności:
- CMake (system kompilacji, 2.6 lub nowszy)
- ICU (przynajmniej 4.2)
- Boost (testowano na wersach 1.41 i 1.42)
- Loki (libloki-dev)
- libxml++2.6
- libpwrutils dostępny z repozytorium corpus2
Kody źródłowe pwrutils można pobrać w następujący sposób:
git clone http://nlp.pwr.wroc.pl/corpus2.git
Do użycia narzędzia Toki wystarczy zainstalować libpwrutils. Jeśli planowane jest użycie innych naszych narzędzi, zalecamy instalację całego corpus2. Więcej szczegółów na temat jego wymagań można znaleźć na stronie projektu MACA. Instalację pwrutils/corpus2 należy przeprowadzić za pomocą systemu CMake, w sposób analogiczny jak opisany poniżej.
Do instalacji Tokiego należy użyć systemu CMake:
mkdir toki/bin
cd toki/bin
cmake ..
# potwierdzić standardowe wartości parametrów enterem
# przeanalizować wyjście; jeśli zależności niespełnione, doisntalować brakujące paczki, usunąć CMakeCache.txt i uruchomić cmake ponowniecmake
make
sudo make install
sudo ldconfig