Uczenie ze wzmocnieniem (RL)

Robot uczy się metodą prób i błędów: za dobre zachowanie otrzymuje nagrodę i stopniowo przyswaja strategię, która ją maksymalizuje.

Uczenie ze wzmocnieniem (reinforcement learning, RL) to podejście, w którym robot uczy się metodą prób i błędów. Nikt nie pokazuje mu właściwego ruchu; zamiast tego robot otrzymuje liczbową nagrodę informującą o tym, jak dobrze sobie radzi (na przykład „pozostał wyprostowany i posunął się do przodu” = plus, „upadł” = minus). Algorytm szuka następnie strategii (polityki), która długoterminowo maksymalizuje sumę nagród. Inspiracja pochodzi ze sposobu, w jaki uczą się ludzie i zwierzęta — przez powtarzanie tego, co się opłaca.

Dla humanoidów RL jest najsilniejsze w obszarze ruchu: chodzenia, biegu, utrzymywania równowagi i odzyskiwania jej po potknięciu. Zadania te są niezwykle trudne do ręcznego zaprogramowania, ale można je nagrodzić prostym kryterium (nie upadaj, idź do przodu) i pozwolić robotowi samemu znaleźć drogę. Większość efektownych filmów z dynamicznym chodzeniem robotów takich jak Unitree H1, Unitree G1 czy elektryczny Atlas opiera się na RL.

Problem polega na tym, że metoda prób i błędów wymaga ogromnej liczby prób — których w rzeczywistości nie można wykonać, bo robot by się rozbił. Dlatego RL prawie zawsze łączy się z podejściem sim-to-real: trening odbywa się w symulacji z tysiącami równoległych robotów, a gotowa polityka jest przenoszona do rzeczywistej maszyny.

RL różni się od uczenia przez imitację — to ostatnie uczy się z ludzkich demonstracji, RL z nagrody. W praktyce oba podejścia się łączy: imitacja daje robotowi sensowny punkt startowy, a RL go dopracowuje. RL jest natomiast trudniej stosowalne do precyzyjnej manipulacji, gdzie trudno zaprojektować sensowną nagrodę; tam dziś lepiej sprawdza się imitacja. Projektowanie właściwej nagrody (reward shaping) jest samo w sobie trudnym rzemiosłem — zła nagroda prowadzi do tego, że robot „oszukuje” i wypełnia literę kryterium, a nie jego ducha.

Uczenie ze wzmocnieniem (RL)

Powiązane roboty

Powiązane pojęcia