Strona poswiecona projektowi z przedmiotu NLP

Tematy (lato 2026; II 2026 - VI 2026)

Lista może zostać rozszerzona.

W razie potrzeby można korzystać z GPU w ramach https://colab.research.google.com/ bądź https://gradient.run/free-gpu. Można także wystąpić o grant obliczeniowy https://task.gda.pl/pl/zasoby/superkomputer/zostan-uzytkownikiem/ bądź https://www.plgrid.pl/oferta/zasoby_obliczeniowe/granty_obliczeniowe.

Rozbudowa systemu do oceny jakosci separacji wokalu z muzyki. 2-3 osoby

a) zmiana modelu wykorzystywanego do Automatic Lyrics Transcription na model standalone, free: 1. Whisper, 2. ...
https://dl.acm.org/doi/full/10.1145/3651310
https://arxiv.org/pdf/2406.17618v1

b) testy na dodatkowych zbiorach utworów, rozszerzenie na inne ezyki niż angielski, inne gatunki muzyki
https://www.audioshake.ai/post/lyrics-transcription-for-humans-revisiting-audioshakes-transcription-benchmark
https://audioshake.github.io/jam-alt/
https://arxiv.org/abs/2408.06370

c) przygotowanie zadania oznaczania poprawności transkrypcji, realizacja oznaczania w ramach zadania dodatkowego z przedmiotu, wyliczenie korelacji pomiędzy miarą automatyczną a oceną ludzką

Dostepny system i praca magisterska

Zrealizowanie rozwiazania okreslania podobienstwa semantycznego (iSTS) dwoch zdan w jezyku angielskim w formie document level. Rozwiazanie a) na ksztalt document level entity and relation extraction/ b) context. Odniesienie sie do wynikow z obronionej pracy magisterskiej/projektu. 2-3 os. (temat zajęty)

- jezyk implementacji: zalezny od dostepnych rozwiazan (zazwyczaj Python)

Zadania:
1. Zapoznac sie z praca magisterska/projektem i przygotowanym rozwiazaniem.
2. Zapoznac sie z rozwiązaniami dla document level entity and relation extraction i zbliżonych
3. Zgromadzic dostepne rozwiazania dla document level entity and relation extraction i zbliżonych.
4. Zmodyfikowac dostepne rozwiazanie na potrzeby iSTS. Opcje:
a) na ksztalt document level entity and relation extraction
b) wykorzystujac kontekst
5. Policzyc miary F (F score, F type, F score+type) dla stworzonego systemu dla wszystkich dostepnych danych z SemEval 2015 Interpretable STS z pojedynczymi relacjami oraz SemEval 2016 - Interpretable STS z rozbudowanymi relacjami i porównanie z dotychczasowymi rezultatami (dotychczasowe rezultaty będą udostępnione) - dopisanie rezultatow do tabelki w arkuszu kalkulacyjnym.

Praca magisterska/projekt, dostepny system (z pracy magisterskiej/projektu) i dane.

Sprawdzenie skuteczności działania ChatGPT/LLaMA/Mistral w okreslaniu podobienstwa semantycznego (iSTS - https://alt.qcri.org/semeval2016/task2/) dwoch zdan w jezyku angielskim. Odniesienie sie do wynikow z obronionej pracy magisterskiej/projektu. 2-4 os.

- jezyk implementacji: Python

Zadania:
1. Zapoznac sie z praca magisterska/projektem.
2. Zrealizować następujące rozwiązania (zakres będzie dopasowany do wielkości zespołu) i przetestować ChatGPT, LLaMA, Mistral w zadaniu iSTS (Zapewniony będzie dostęp do mocy obliczeniowej i ChatGPT).
a) fine-tuning modelu Mistral 14B
b) rozwiązanie wykorzystujące jednocześnie fine-tuning i in-context learning (dynamiczne wybieranie przykładów w few-shot i class-weighted fine-tuning)
c) połączenie LLM-ów z Pre-trained LM
d) rozwiązanie poprawiające działanie LLM w zadaniach wymagających ustrukturalizowanego wyjścia, np. graf wiedzy albo opis zasad w prompcie
dla podejścia golden chunks i system chunks.
4. Policzyc miary F (korzystając z dostarczonego skryptu) dla stworzonego systemu dla wszystkich dostepnych danych z SemEval 2016 - Interpretable STS z rozbudowanymi relacjami.
5. Porównać wyniki z dotychczasowymi rezultatami (dotychczasowe rezultaty będą udostępnione) - dopisać rezultaty do tabelki w arkuszu kalkulacyjnym

Praca magisterska/projekt, kod, dostepne dane, moc obliczeniowa.

Rozbudowa i ewaluacja rozwiazania multi-agent LLMs. 2-3 os.

- jezyk implementacji: Python

Zadania:
1. Zapoznac sie z przykladowymi materialami: https://arxiv.org/abs/2402.01680, https://www.superannotate.com/blog/multi-agent-llms
2. Analiza literaturowa pod kątem rozwiązań multi-agent LLM dla zadania analizy sprawozdań finansowych oraz ewaluacji takich systemów
3. Rozbudować rozwiazanie multi-agent LLM dla zadania analizy sprawozdań finansowych. (zakres zostanie dostosowany do wielkości zespołu)
a) wykorzystanie Retrieval-Augmented Generation (RAG) / current context storage.
b) architektury hybrydowe (w ramach m.in. group chat, sequential)
c) rozważyć architektury concurent, parallel. Architektury group chat, sequential są już zaimplementowane
4. Zbadać efektywność co najmniej dwóch podejść współpracy, np. concurent, group chat, sequential, parallel
5. Przeprowadzic eksperymenty i ewaluację systemu, zaprezentowac mierzalne wyniki.

Dostępna dotychczasowa wersja rozwiązania.