eng / pl
Paweł Wawrzyński
Politechnika Warszawska

Badania


Idea przewodnia
Obecnie prowadzone badania
Rezultaty uzyskane dotychczas:

Idea przewodnia

Celem moich badań jest rozwój metod sztucznej inteligencji pozwalających tworzyć systemy przetwarzania informacji, które dzięki adaptacji (uczeniu się) nabywają lub doskonalą takie swoje możliwości jak:
  • sterowanie,
  • podejmowanie decyzji,
  • planowanie,
  • percepcja,
  • pamięć.
Moje badania koncentrują się głónie na następujących obszarach:

Obecne badania

Obecnie prowadzę badania w następujących obszarach:
  • Uczenie ze wzmocnieniem
  • Grafowe sieci neuronowe
  • Automatyczny handel
  • Wizja maszynowa
  • Uczenie kontynuowane

Grafowe i rekurencyjne sieci neuronowe

Rekursywny, grafowy autokoder.
Architektura zaprezentowana w artykule rekursywnie przekształca macierz sąsiedztwa grafu do zageniżdżenia o stałym wymiarze, a następnie, również rekursywnie, dokonuje przekształcenia odwrotnego. W rezultacie, w zaszdzie dowolny graf może być przy użyciu tej architektury reprezentowany przez wektor o stałym wymiarze.
Najmniej redundanta rekurencyjna sieć neuronowa z bramkami.
Sieć rekurencyjna zaprezentowana w artkykule artykule może dokonywać dowolnego nieliniowego przekształcenia swojego stanu w ciągu pojedynczej chwili czasu. Jednocześnie, zawiera tylko jedną warstwę bramek. Sieć osiąga znacznie lepsze rezultaty niż LSTM, GRU i RHN.

Uczenie kontynuowane

Opis problemu.
Powiedzmy, że model neuronowy jest trenowany na danych napływających w porcjach (np. nagrania z kolejnych dni). Żadna z tych porcji nie jest reprezentatywna (np. ze względu na zmiany sezonowe). Chcemy, aby po dotrenowaniu na danej porcji model był tak dokładany, jakby był wytrenowany na wszystkich danych jednocześnie.
BinPlay.
Wspólnie z kolegami z Laboratorium Wizji Komputerowej PW opracowaliśmy metodę uczenia ciągłego opartą na powtarzaniu wcześniejszych danych i bardzo skutecznym sposobie zapamiętywania tych wcześniejszych danych. Metoda została opisana w referacie konferencyjnym i artykule czasopismowym.

Bezparametrowe uczenie się on-line

Opis problemu.
Wszystkie algorytmy oparte na stochastycznym najszybszym spadku, w tym większość metod uczenia się on-line, wymagają parametrów określających długość kroków, jakie są wykonywane w kierunku estymatora gradientu. Niestety dobre wartości tego parametrów są zależne od problemu i etapu procesu uczenia się. Problem polega na tym, aby estymować te parametry w trakcie procesu.
Algorytm ASD+M.
To podejście jest oparte o optymalizację metaparametrów algorytmu stochastycznego najszybszego spadku z inercją (momentum) ze względu na tempo procesu uczenia się. Algorytm został zaprezentowany w referacie konferencyjnym oraz artykule. Jego udoskonalona wersja została zaprezentowana w kolejnym referacie.
Metoda punktu ustalonego.
Podejście polega na podziale procesu uczenia się na części, w których jednocześnie suma estymatorów gradientu jest określana dla ustalonego i zmieniającego się punktu w dziedzinie. Porównanie tych sym daje wskazówkę jak aktualizować parametr kroku. Rodzina metod zaprojektowana na podstawie tej inspiracji została zaprezentowana w referacie oraz artykule.

Autonomiczne uczenie się ze wzmocnieniem użyte do optymalizacji chodu Bioloida

Zarysowanie problemu. Chodzi o to aby Bioloid nauczył się chodzić tak szybko jak to tylko jest możliwe.
Stosowane podejście. Algorytm Aktor-Krytyk z powtarzaniem doświadczenia i estymacją parametru kroku przy użyciu metody punktu ustalonego.
Wyniki. Wyniki badań zostały zaprezentowane w artykule konferencyjnym i czasopismowym.

Algorytmy typu Aktor-Krytyk z powtarzaniem doświadczenia

Zarysowanie problemu.
Algorytmy uczenia się przez wzmacnianie są procedurami przetwarzającymi kolejne obserwacje stanów, decyzji oraz nagród na parametry polityki. Metody klasyczne należące do tej dziedziny, takie jak Q-Learning (Watkins 1989) lub Aktor-Krytyk (Barto, Sutton & Anderson, 1983, Kimura & Kobayashi, 1998, Konda & Tsitsiklis, 2003) prztwarzają te obserwacje sekwencyjnie, tnz. próbka danych jest wykorzystana do modyfikacji polityki i zapomniana. Taki sposób przetwarzania informacji okazuje się nieefektywny w tym sensie, że algorytmy uczenia się potrzebują bardzo dużo czasu na wykształcenie satysfakcjonującej polityki. Czas ten jest zwykle na tyle długi, że wystarczyłby do zniszczenia dowolnej maszyny, której politykę sterowania chcielibyśmy zoptymalizować przy użyciu metod uczenia się przez wzmacnianie.
Stosowane podejście.
Projektując algorytm uczenia się przez wzmacnianie przetwarzający wielokrotnie obserwacje zbierane w trakcie interakcji decydenta z jego środowiskiem zastosowałem podejście, które ulegało w czasie pewnym zmianom:
  • Pierwotnie, stosowałem podejście, w ramach którego polityka decyzyjna była przedmiotem estymacji dokonywanej przez procedurę działającą równolegle do procesu interakcji decydenta ze środowiskiem. Estymacja opierała się na danych zebranych w czasie tej interakcji. Tak skonstruowany algorytm został przedstawiony w artykule konferencyjnymoraz rozprawie doktorskiej.
  • Następnie, zastosowałem podejście oparte na następujących założeniach: (i) punktem wyjścia jest abstrakcyjny sekwencyjny algorytm Aktor-Krytyk, (ii) dokonuje on poprawek polityki wg pewnego schematu, który ten algorytm definiuje, (iii) zmodyfikowany algorytm zbiera obserwacje z procesu interakcji do bazy danych i rekurencyjnie wykorzystuje je do dokonywania poprawek polityki podobnych do wykonywanych przez oryginalny, sekwencyjny algorytm. Podejście to zostało przedstawione w artykule konferencyjnym; ponadto, jego efektowne zastosowanie do modelu kota uczącego się biegać (Pół-Geparda) zostało przedstawione w referacie oraz artykule.

Estymacja wartości oczekiwanej rozkładu przy pomocy próbek z innego rozkładu - zbalansowane próbkowanie ważnościowe

Sposobem na ocenę jakości polityki decyzyjnej w zagadnieniu uczenia się przez wzmacnianie może być estymacja wartości oczekiwanych pewnych zmiennych losowych na podstawie próbek z rozkładów innych niż rozkłady tych zmiennych losowych. Jednym z podejść do tego zagadnienia jest sposób estymacji nazwany roboczo zbalansowanym próbkowaniem ważnościowym.

Model dostosowujący algorytmy uczenia się przez wzmacnianie do problemów z gęstą dyskretyzacją czasu

Zarysowanie problemu.
Typowe algorytmy uczenia się przez wzmacnianie mają zazwyczaj trudności z rozwiązywaniem problemów, w których upływa bardzo dużo chwil czasowych między decyzją a rejestracją jej konsekwencji. Tymczasem taki charakter mają na ogół problemy sterowania: współczesne sterowniki cyfrowe działają w bardzo gęsto zdyskretyzowanym czasie ciągłym.
Stosowane podejście.
W ramach zaproponowanego rozwiązania, czas nauki jest podzielony na okresy niemarkowskie charakteryzujące się tym, że w istnieje zależność stochastyczna między decyzjami w pojedynczym okresie. Algorytm uczenia się przez wzmacnianie działa w czasie, dla którego chwilą jest okres niemarkowski. Ponieważ okresy niemarkowskie mogą agregować dowolnie wiele decyzji, algorytm przestaje działać w gęsto zdyskretyzowanym czasie, przez co może działać efektywniej.
Podejście to zostało opisane w artykule natomiast jego efektowne zastosowanie do (Pół-Geparda) zostało przedstawione w referacie konferencyjnym

Metoda symulacji płaskich łańcuchów kinematycznych

Wydajne algorytmy uczenia się przez wzmacnianie powinny sprawdzać się w zastosowaniu do problemów sterowania złożonymi obiektami dynamicznymi. Jako warsztat pozwalający testować algorytmy uczenia się, został zbudowany symulator płaskich łańcuchów kinematycznych. Metodologia zastosowana do jego budowy została zaprezentowana w raporcie instytutowym.
Poniżej zostały zaprezentowane możliwości tego symulatora.
Running Half-Cheetah
Rysunek 1. Biegający Pół-Gepard. Dostępny jest ponadto bieg Pół-Geparda w zwolnionym pempie.

Sztuczna inteligencja bota w grze typu FPS oparta na sterowaniu predykcyjnym

W artykule został przedstawiony algorytm kierowania botem w grze typu FPS wzorowany na sterowniku predykcyjnym. Zostało także przedstawiona implementacja tego podejścia w grze HalfLife.

Metoda estymacji rozkładów prawdopodobieństwa przy użyciu sieci neuronowej aproksymującej kwantyle rozkładu warunkowego

Łączny rozkład skalarnych zmiennych losowych X1, ..., Xn może zostać z dowolną dokładnością przedstawiony w następujący sposób:
  • Zbiór kwantyli rozkładu X1 o rzędach równo pokrywających przedział [0,1],
  • Zbiór kwantyli rozkładu warunkowego X2|X1 o rzędach j.w.,
  • Zbiór kwantyli rozkładu warunkowego X3|X1,X1 o rzędach j.w.
  • etc.
W artykule zostało przedstawione narzędzie służące do modelowania wielowymiarowych rozkładów w oparciu o powyższą ich dekompozycję. Narzędziem tym jest sieć neuronowa aproksymująca kwantyle rozkładu warunkowego. Przedstawiony został sposób uczenia takiej sieci.

Metoda przydziału częstotliwości w telefonicznej sieci komórkowej

Współpraca między Politechniką Warszawską a Polską Telefonią Cyfrową zaowocowała powstaniem metodologii przydziału częstotliwości w telefonicznej sieci komórkowej. Metodologia ta opiera się na dokonywaniu pomiarów siły sygnału pochodzącego z różnych stancji bazowych w punktach równomiernie pokrywających miasto. Na podstawie pomiarów zostają wyznaczone relacje kolizji między stacjami bazowymi. Przydział zostaje przeprowadzony w taki sposób aby kolidujące ze sobą stacje otrzymały inne częstotliwości. Metodologia powyższa została szczegółowo opisana wartykule.