Piotr Andruszkiewicz
Projekt z przedmiotu: Wprowadzenie do przetwarzania języka naturalnego
Informacje ogólne
Tematy projektów zamieszczone są na liscie tematów. Możliwe jest także zgłaszanie własnych propozycji.
Zespoły projektowe: 2-3 os.
Tematy można wybierać/zgłaszać mailowo bądź osobiście na konsultacjach.
Etapy projektu
I - wybór tematu / propozycja własnego tematu (dookreslenie zakresu projektu),
II - projekt wstępny - przygotowanie
raportu podsumowujacego studia literaturowe i opisującego projekt
implementacji (już ze szczegółami),
III - oddanie projektu, pełna dokumentacja, prezentacja na konsultacjach.
Terminy: zgodne z podanymi na wykladzie.
Środowisko implementacji
O ile w temacie projektu nie zaznaczono inaczej, wybór języka programowania i systemu operacyjnego należy do wykonawców. Można używać powszechnie znanych języków programowania w szczególności: C++, C, Java, Scala, C#, Perl, R, Matlab... W przypadku innych języków proszę o informację o dokonanym wyborze.
Zaliczenie projektu
Wymaga:
- Oddania dokumentacji wstępnej
- Oddania dokumentacji koncowej wraz z częścią praktyczną projektu (źródła i część "wykonywalna") w wyznaczonym terminie.
- Prezentacji projektu i krotkiej "opowiesci" o tym, co zostalo wykonane.
- Uwaga: nieprzekazanie dokumentacji wstepnej w terminie skutkuje zmniejszeniem oceny z projektu o 0.5.
- Uwaga: nieprzekazanie dokumentacji koncowej z częścią praktyczną projektu w terminie skutkuje zmniejszeniem oceny z projektu o 1. Nieprzekazanie dokumentacji koncowej z czescia praktyczna projektu w ciagu tygodnia po terminie skutkuje niezaliczeniem projektu.
- Uwaga: prosze przeczytac uwagi ogolne do projektow i do nich sie stosowac.
Dane
Można używać danych pochodzących z korpusu Reuters, np.
http://archive.ics.uci.edu/beta/datasets/Reuters-21578+Text+Categorization+Collection
Google T1 corpus - raczej duży
Przykładowe zbiory można znaleźć pod adresem
http://archive.ics.uci.edu/beta/datasets.html
http://techtc.cs.technion.ac.il/ ("trochę" wieksze)
Mozna korzystać z dowolnych zbiorów - odpowiednio dużych, aby można było przetestować algorytm i wyciągnąć wnioski. Odpowiednio małych, aby można było zrobić to w skończonym czasie.
Informacje dodatkowe
W korespondencji elektronicznej proszę o umieszczenie NLP na początku tematu (inaczej czas odpowiedzi moze byc baaardzo dlugi).
- Lista tematów.
- Repozytoria.
- Uwagi ogólne do projektów.
Dokumentacja koncowa powinna poruszać co najmniej nastepujące zagadnienia:
- Definicja problemu
- Studia literaturowe z odniesieniem do realizowanego rozwiazania (punkt obowiazkowy, brak punktu skutkuje niezaliczeniem projektu)
- punkt powinien zawierac cytowania, odniesienie do konkretnych pozycji z literatury, ktora powinna znajdowac sie w punkcie Literatura
- Opis rozwiazania/algorytmu (punkt b. ważny w przypadku propozycji własnego algorytmu)
- Implementacja
- Instrukcja obsługi (jak uruchomić to, co powstało)
- Testy
- punkt powinien zawierac porownanie uzyskanych wynikow z literatura (wazna czesc, brak porownania skutkuje niezaliczeniem projektu)
- Wnioski (ważny punkt dokumentacji, brak punktu skutkuje niezaliczeniem projektu)
- Literatura
Dokumentacja wstepna powinna zawierac punkty: 1, 2, 3, 4 (czesciowo, informacja o planowanych technologiach, ktore zostana uzyte), 8.
UWAGA:
Wyniki liczbowe prezentowane w dokumentacji nie moga byc zrzutem ekranu.