Celem moich badań jest rozwój metod sztucznej inteligencji pozwalających tworzyć systemy przetwarzania informacji, które dzięki adaptacji (uczeniu się) nabywają lub doskonalą takie swoje możliwości jak:
sterowanie,
podejmowanie decyzji,
planowanie,
percepcja,
pamięć.
Moje badania koncentrują się głónie na następujących obszarach:
Obecnie prowadzę badania w następujących obszarach:
Uczenie ze wzmocnieniem
Grafowe sieci neuronowe
Automatyczny handel
Wizja maszynowa
Uczenie kontynuowane
Grafowe i rekurencyjne sieci neuronowe
Rekursywny, grafowy autokoder.
Architektura zaprezentowana w artykule rekursywnie
przekształca macierz sąsiedztwa grafu do zageniżdżenia o stałym wymiarze, a następnie, również rekursywnie,
dokonuje przekształcenia odwrotnego. W rezultacie, w zaszdzie dowolny graf może być przy użyciu tej
architektury reprezentowany przez wektor o stałym wymiarze.
Najmniej redundanta rekurencyjna sieć neuronowa z bramkami.
Sieć rekurencyjna zaprezentowana w artkykule artykule
może dokonywać dowolnego nieliniowego przekształcenia swojego stanu w ciągu pojedynczej chwili czasu.
Jednocześnie, zawiera tylko jedną warstwę bramek. Sieć osiąga znacznie lepsze rezultaty niż
LSTM, GRU i RHN.
Uczenie kontynuowane
Opis problemu.
Powiedzmy, że model neuronowy jest trenowany na danych napływających w porcjach (np. nagrania z kolejnych dni). Żadna z tych porcji nie jest reprezentatywna (np. ze względu na zmiany sezonowe). Chcemy, aby po dotrenowaniu na danej porcji model był tak dokładany, jakby był wytrenowany na wszystkich danych jednocześnie.
Wszystkie algorytmy oparte na stochastycznym najszybszym spadku, w tym większość metod uczenia się on-line, wymagają parametrów określających długość kroków, jakie są wykonywane w kierunku estymatora gradientu. Niestety dobre wartości tego parametrów są zależne od problemu i etapu procesu uczenia się. Problem polega na tym, aby estymować te parametry w trakcie procesu.
Algorytm ASD+M.
To podejście jest oparte o optymalizację metaparametrów algorytmu stochastycznego najszybszego spadku z inercją (momentum) ze względu na tempo procesu uczenia się. Algorytm został zaprezentowany w referacie konferencyjnym oraz artykule. Jego udoskonalona wersja została zaprezentowana w kolejnym referacie.
Metoda punktu ustalonego.
Podejście polega na podziale procesu uczenia się na części, w których jednocześnie suma estymatorów gradientu jest określana dla ustalonego i zmieniającego się punktu w dziedzinie. Porównanie tych sym daje wskazówkę jak aktualizować parametr kroku. Rodzina metod zaprojektowana na podstawie tej inspiracji została zaprezentowana w referacie oraz artykule.
Autonomiczne uczenie się ze wzmocnieniem użyte do optymalizacji chodu Bioloida
Zarysowanie problemu.Chodzi o to aby Bioloid nauczył się chodzić tak szybko jak to tylko jest możliwe.
Stosowane podejście.Algorytm Aktor-Krytyk z powtarzaniem doświadczenia i estymacją parametru kroku przy użyciu metody punktu ustalonego.
Algorytmy typu Aktor-Krytyk z powtarzaniem doświadczenia
Zarysowanie problemu.
Algorytmy uczenia się przez wzmacnianie są procedurami przetwarzającymi kolejne obserwacje stanów, decyzji oraz nagród na parametry polityki. Metody klasyczne należące do tej dziedziny, takie jak Q-Learning (Watkins 1989) lub Aktor-Krytyk (Barto, Sutton & Anderson, 1983, Kimura & Kobayashi, 1998, Konda & Tsitsiklis, 2003) prztwarzają te obserwacje sekwencyjnie, tnz. próbka danych jest wykorzystana do modyfikacji polityki i zapomniana. Taki sposób przetwarzania informacji okazuje się nieefektywny w tym sensie, że algorytmy uczenia się potrzebują bardzo dużo czasu na wykształcenie satysfakcjonującej polityki. Czas ten jest zwykle na tyle długi, że wystarczyłby do zniszczenia dowolnej maszyny, której politykę sterowania chcielibyśmy zoptymalizować przy użyciu metod uczenia się przez wzmacnianie.
Stosowane podejście.
Projektując algorytm uczenia się przez wzmacnianie przetwarzający wielokrotnie obserwacje zbierane w trakcie interakcji decydenta z jego środowiskiem zastosowałem podejście, które ulegało w czasie pewnym zmianom:
Pierwotnie, stosowałem podejście, w ramach którego polityka decyzyjna była przedmiotem estymacji dokonywanej przez procedurę działającą równolegle do procesu interakcji decydenta ze środowiskiem. Estymacja opierała się na danych zebranych w czasie tej interakcji. Tak skonstruowany algorytm został przedstawiony w artykule konferencyjnymoraz rozprawie doktorskiej.
Następnie, zastosowałem podejście oparte na następujących założeniach: (i) punktem wyjścia jest abstrakcyjny sekwencyjny algorytm Aktor-Krytyk, (ii) dokonuje on poprawek polityki wg pewnego schematu, który ten algorytm definiuje, (iii) zmodyfikowany algorytm zbiera obserwacje z procesu interakcji do bazy danych i rekurencyjnie wykorzystuje je do dokonywania poprawek polityki podobnych do wykonywanych przez oryginalny, sekwencyjny algorytm. Podejście to zostało przedstawione w artykule konferencyjnym; ponadto, jego efektowne zastosowanie do modelu kota uczącego się biegać (Pół-Geparda) zostało przedstawione w referacie oraz artykule.
Estymacja wartości oczekiwanej rozkładu przy pomocy próbek z innego rozkładu - zbalansowane próbkowanie ważnościowe
Sposobem na ocenę jakości polityki decyzyjnej w zagadnieniu uczenia się przez wzmacnianie może być estymacja wartości oczekiwanych pewnych zmiennych losowych na podstawie próbek z rozkładów innych niż rozkłady tych zmiennych losowych. Jednym z podejść do tego zagadnienia jest sposób estymacji nazwany roboczo zbalansowanym próbkowaniem ważnościowym.
Model dostosowujący algorytmy uczenia się przez wzmacnianie do problemów z gęstą dyskretyzacją czasu
Zarysowanie problemu.
Typowe algorytmy uczenia się przez wzmacnianie mają zazwyczaj trudności z rozwiązywaniem problemów, w których upływa bardzo dużo chwil czasowych między decyzją a rejestracją jej konsekwencji. Tymczasem taki charakter mają na ogół problemy sterowania: współczesne sterowniki cyfrowe działają w bardzo gęsto zdyskretyzowanym czasie ciągłym.
Stosowane podejście.
W ramach zaproponowanego rozwiązania, czas nauki jest podzielony na okresy niemarkowskie charakteryzujące się tym, że w istnieje zależność stochastyczna między decyzjami w pojedynczym okresie. Algorytm uczenia się przez wzmacnianie działa w czasie, dla którego chwilą jest okres niemarkowski. Ponieważ okresy niemarkowskie mogą agregować dowolnie wiele decyzji, algorytm przestaje działać w gęsto zdyskretyzowanym czasie, przez co może działać efektywniej.
Metoda symulacji płaskich łańcuchów kinematycznych
Wydajne algorytmy uczenia się przez wzmacnianie powinny sprawdzać się w zastosowaniu do problemów sterowania złożonymi obiektami dynamicznymi. Jako warsztat pozwalający testować algorytmy uczenia się, został zbudowany symulator płaskich łańcuchów kinematycznych. Metodologia zastosowana do jego budowy została zaprezentowana w raporcie instytutowym.
Poniżej zostały zaprezentowane możliwości tego symulatora.
Sztuczna inteligencja bota w grze typu FPS oparta na sterowaniu predykcyjnym
W artykule został przedstawiony algorytm kierowania botem w grze typu FPS wzorowany na sterowniku predykcyjnym. Zostało także przedstawiona implementacja tego podejścia w grze HalfLife.
Metoda estymacji rozkładów prawdopodobieństwa przy użyciu sieci neuronowej aproksymującej kwantyle rozkładu warunkowego
Łączny rozkład skalarnych zmiennych losowych X1, ..., Xn może zostać z dowolną dokładnością przedstawiony w następujący sposób:
Zbiór kwantyli rozkładu X1 o rzędach równo pokrywających przedział [0,1],
Zbiór kwantyli rozkładu warunkowego X2|X1 o rzędach j.w.,
Zbiór kwantyli rozkładu warunkowego X3|X1,X1 o rzędach j.w.
etc.
W artykule zostało przedstawione narzędzie służące do modelowania wielowymiarowych rozkładów w oparciu o powyższą ich dekompozycję. Narzędziem tym jest sieć neuronowa aproksymująca kwantyle rozkładu warunkowego. Przedstawiony został sposób uczenia takiej sieci.
Metoda przydziału częstotliwości w telefonicznej sieci komórkowej
Współpraca między Politechniką Warszawską a Polską Telefonią Cyfrową zaowocowała powstaniem metodologii przydziału częstotliwości w telefonicznej sieci komórkowej. Metodologia ta opiera się na dokonywaniu pomiarów siły sygnału pochodzącego z różnych stancji bazowych w punktach równomiernie pokrywających miasto. Na podstawie pomiarów zostają wyznaczone relacje kolizji między stacjami bazowymi. Przydział zostaje przeprowadzony w taki sposób aby kolidujące ze sobą stacje otrzymały inne częstotliwości. Metodologia powyższa została szczegółowo opisana wartykule.