Pytania i odpowiedzi ze zbioru „Czy wiesz”

„Czy wiesz” to zbiór 4721 pytań wraz z linkami do stron Wikipedii zawierających odpowiedzi na te pytania uzyskany na podstawie projektu wikipedyjnego „Czy wiesz”.

Dla 250 spośród tych pytań przeprowadzono ręczną analizę odpowiedzi. Zbiór wzbogacono o oznaczenie konkretnych fragmentów zawierających odpowiedź na te pytania. Wszystkie wskazane fragmenty zostały zweryfikowane przez człowieka. Niektórym pytaniom przypisano wiele fragmentów.

Celem zbioru jest testowanie i rozwój systemów typu Question Answering.

Zbiór zawiera:

  1. Wstępnie przetworzony zrzut polskiej Wikipedii z 22.01.2013 (Czywiesz.tar).
  2. Listę poprawnych pytań pobranych z serwisu "Czy wiesz" (source/questions.txt).
  3. Listę poprawnych pytań pobranych z serwisu "Czy wiesz" z linkami do stron Wikipedii (source/questions_links.txt)
  4. Listę poprawnych pytań pobranych z serwisu "Czywiesz" i przypisane im dokumenty mające zawierać odpowiedź (source/czywiesz.csv).
  5. Listę pytań odrzuconych jako niepoprawne (source/removed.txt).
  6. Główny zbiór (annotations/results/czywiesz-eva-I-250-approved.json) opiera się na 250 wylosowanych pytaniach. Dla każdego z nich uruchomiliśmy roboczą wersję systemu. Wyjściem systemu dla każdego pytania była uszeregowana wg trafności (zdaniem systemu) lista 200 dokumentów z wikipedii wraz z oznaczeniem fragmentu pięciozdaniowego, który zdaniem systemu zawiera najlepszą odpowiedź. Każda z odpowiedzi systemu została zweryfikowana przez człowieka (250 pytań razy 200 odpowiedzi). Wynikiem weryfikacji jest akceptacja bądź odrzucenie odpowiedzi. W przypadku akceptacji osoba oceniająca dokonywała także korekty zakresu fragmentu (z dokładnością do pełnych zdań). Wynikiem jest więc zbiór par pytanie–odpowiedź, gdzie na jedno pytanie może być wiele odpowiedzi, a odpowiedzią jest para (dokument, fragment zawierający odpowiedź).
  7. Logi śladujące proces pobierania pytań z Wikipedii (logs/log1.txt i logs/log2.txt).

Liczymy na to, że dzięki udostępnieniu zarówno pytań, jak i całej kolekcji testowej (całej Wikipedii z wspomnianego zrzutu), możliwe będzie przeprowadzenie różnych eksperymentów w tych samych warunkach, dzięki czemu wyniki będą bezpośrednio ze sobą porównywalne.

Zbiór udostępniany jest na licencji Creative Commons Uznanie Autorstwa Na tych samych warunkach 3.0 (CC-BY-SA 3.0).

Instytut Informatyki, Politechnika Wrocławska, 2013

Osoby zaangażowane w projekt

Łukasz Burdka
Michał Marcińczuk
Dominik Piasecki
Maciej Piasecki
Marcin Ptak
Adam Radziszewski
Paweł Rychlikowski
Tomasz Zięba

Zmiany

2.0.
- spośród wszystkich pytań wylosowano 250 (annotations/results/czywiesz-eva-I-250-approved.json)
- 250 pytań zostało poddane ręcznej weryfikacji; w tym celu uruchomiono roboczą wersję systemu QA i anotatorzy ocenili 200 pierwszych odpowiedzi systemu na każde z 250 pytań; wyniki oceny zawrate są w plikach CSV
- oprócz tego wylosowano 1347 pytań do zbioru rozwojowego (zbiór ten rozłączny jest z głównym zbiorem 250 pytań) i przeprowadzono tam podobną weryfikację, lecz anotatorzy oceniali jedynie 10 pierwszych odpowiedzi
- zamieniono ze sobą nazwy zbiorów: rozwojowy (dev) z zbiorem do końcowej oceny (eva); zamiana była konieczna ze względu na niefortunną pomyłkę

1.1.
- dodane numery ID dla zdań w pliku czywiesz.csv
- zamiana kolejności kolumn w pliku czywiesz.csv (desc. -> ReadMe.txt: l. 48)
- uaktualniony plik ReadMe.txt
- dodatkowy podział na część rozwojową i część do późniejszej oceny (pliki CSV w katalogu source)

1.0.

- pierwsza wersja zbioru