Piotr Andruszkiewicz

Projekt z przedmiotu: Wprowadzenie do przetwarzania języka naturalnego


Informacje ogólne

Tematy projektów zamieszczone są na liscie tematów. Możliwe jest także zgłaszanie własnych propozycji.


Zespoły projektowe: 2-3 os.

Tematy można wybierać/zgłaszać mailowo bądź osobiście na konsultacjach.

Etapy projektu


I - wybór tematu / propozycja własnego tematu (dookreslenie zakresu projektu),
II - projekt wstępny - przygotowanie raportu podsumowujacego studia literaturowe i opisującego projekt implementacji (już ze szczegółami),
III - oddanie projektu, pełna dokumentacja, prezentacja na konsultacjach.

Terminy: zgodne z podanymi na wykladzie.

Środowisko implementacji

O ile w temacie projektu nie zaznaczono inaczej, wybór języka programowania i systemu operacyjnego należy do wykonawców. Można używać powszechnie znanych języków programowania w szczególności: C++, C, Java, Scala, C#, Perl, R, Matlab... W przypadku innych języków proszę o informację o dokonanym wyborze.

Zaliczenie projektu

Wymaga:
  1. Oddania dokumentacji wstępnej
  2. Oddania dokumentacji koncowej wraz z częścią praktyczną projektu (źródła i część "wykonywalna") w wyznaczonym terminie.
  3. Prezentacji projektu i krotkiej "opowiesci" o tym, co zostalo wykonane.
  4. Uwaga: nieprzekazanie dokumentacji wstepnej w terminie skutkuje zmniejszeniem oceny z projektu o 0.5.
  5. Uwaga: nieprzekazanie dokumentacji koncowej z częścią praktyczną projektu w terminie skutkuje zmniejszeniem oceny z projektu o 1. Nieprzekazanie dokumentacji koncowej z czescia praktyczna projektu w ciagu tygodnia po terminie skutkuje niezaliczeniem projektu.
  6. Uwaga: prosze przeczytac uwagi ogolne do projektow i do nich sie stosowac.

Dane

Można używać danych pochodzących z korpusu Reuters, np.
http://archive.ics.uci.edu/beta/datasets/Reuters-21578+Text+Categorization+Collection
Google T1 corpus - raczej duży

Przykładowe zbiory można znaleźć pod adresem
http://archive.ics.uci.edu/beta/datasets.html
http://techtc.cs.technion.ac.il/ ("trochę" wieksze)
Mozna korzystać z dowolnych zbiorów - odpowiednio dużych, aby można było przetestować algorytm i wyciągnąć wnioski. Odpowiednio małych, aby można było zrobić to w skończonym czasie.

Informacje dodatkowe


W korespondencji elektronicznej proszę o umieszczenie NLP na początku tematu (inaczej czas odpowiedzi moze byc baaardzo dlugi).
  1. Lista tematów.
  2. Repozytoria.
  3. Uwagi ogólne do projektów.

Dokumentacja koncowa powinna poruszać co najmniej nastepujące zagadnienia:
  1. Definicja problemu
  2. Studia literaturowe z odniesieniem do realizowanego rozwiazania (punkt obowiazkowy, brak punktu skutkuje niezaliczeniem projektu)
    - punkt powinien zawierac cytowania, odniesienie do konkretnych pozycji z literatury, ktora powinna znajdowac sie w punkcie Literatura
  3. Opis rozwiazania/algorytmu (punkt b. ważny w przypadku propozycji własnego algorytmu)
  4. Implementacja
  5. Instrukcja obsługi (jak uruchomić to, co powstało)
  6. Testy
    - punkt powinien zawierac porownanie uzyskanych wynikow z literatura (wazna czesc, brak porownania skutkuje niezaliczeniem projektu)
  7. Wnioski (ważny punkt dokumentacji, brak punktu skutkuje niezaliczeniem projektu)
  8. Literatura

Dokumentacja wstepna powinna zawierac punkty: 1, 2, 3, 4 (czesciowo, informacja o planowanych technologiach, ktore zostana uzyte), 8.

UWAGA:

Wyniki liczbowe prezentowane w dokumentacji nie moga byc zrzutem ekranu.