Uczenie przez naśladowanie (imitation learning)

Robot uczy się zadania, naśladując ludzkie demonstracje, zamiast pisania jawnego programu lub definiowania funkcji nagrody.

Uczenie przez naśladowanie to rodzina metod, w których robot uczy się zadania, obserwując, jak wykonuje je człowiek. Zamiast pisać program „jeśli … to …” lub definiować matematyczną funkcję nagrody, pokazuje się robotowi wiele przykładów poprawnego wykonania, a model uczy się z nich przekładać percepcję (co widzi) na działanie (jak się poruszyć).

Demonstracje powstają najczęściej przez teleoperację — operator prowadzi robota przez zadanie, a system rejestruje pary „obserwacja → ruch”. W ten sposób powstaje zbiór danych, na którym trenuje się model. Najprostszą odmianą uczenia przez naśladowanie jest klonowanie zachowań, gdzie sieć uczy się po prostu odtwarzać zarejestrowane akcje. Nowocześniejsze podejścia generują akcje za pomocą diffusion policy, co lepiej radzi sobie z sytuacjami, gdy istnieje kilka równie poprawnych sposobów wykonania zadania.

Główną zaletą jest to, że ludziom naturalnie przychodzi pokazanie zadania, lecz trudno je precyzyjnie zaprogramować — to jest istota paradoksu Moravca. Słabością jest tak zwany distribution shift: gdy robot trafi w stan, którego nie było w danych (na przykład nieznacznie minie obiekt), nie ma się na czym oprzeć, a błędy mogą się kumulować. Dlatego uczenie przez naśladowanie często łączy się z uczeniem ze wzmocnieniem, które dopracowuje politykę przez eksperymentowanie.

Niemal wszyscy dzisiejsi producenci „uczących się” robotów humanoidalnych opierają się na uczeniu przez naśladowanie — Figure, Tesla, 1X i inni zbierają ludzkie demonstracje na masową skalę. To silnik napędzający koło zamachowe danych całej branży.

Uczenie przez naśladowanie (imitation learning)

Powiązane roboty

Powiązane pojęcia