Klonowanie zachowania (behavior cloning)

Najprostsza forma uczenia przez imitację — sieć uczy się bezpośrednio naśladować zarejestrowane ludzkie działania jako zadanie „wejście → właściwy ruch”.

Klonowanie zachowania (behavior cloning, BC) to najprostszy sposób nauczenia robota przez imitację. Procedura jest prosta: zbiera się zbiór danych par „obserwacja → akcja” z ludzkich demonstracji i trenuje model tak, aby dla każdej obserwacji przewidział tę akcję, którą w danej sytuacji wykonał człowiek. Z punktu widzenia uczenia maszynowego jest to zwykłe zadanie uczenia nadzorowanego (supervised learning) — robot „klonuje” zachowanie demonstratora.

Jest to podzbiór uczenia przez imitację i często pierwszy krok, który producenci wypróbowują, ponieważ jest technicznie nieskomplikowany i dobrze skaluje się z danymi. Demonstracje pochodzą zazwyczaj z teleoperacji.

Klonowanie zachowania ma jedną zasadniczą słabość, opisaną już w latach 80. i 90.: tzw. covariate shift (skumulowane błędy). Model uczy się tylko ze stanów, które odwiedził ekspert. Gdy robot popełni mały błąd i znajdzie się w nieco innej sytuacji, niż kiedykolwiek widział w danych, nie wie, jak zareagować — błędy kumulują się, dopóki nie dojdzie do awarii. Klasyczna ilustracja: samochód wytrenowany wyłącznie na jeździe środkiem pasa nigdy nie nauczył się, jak wrócić z krawędzi drogi.

Dlatego czyste klonowanie zachowania jest w praktyce ulepszane — albo poprzez inteligentniejsze generowanie akcji za pomocą diffusion policy, albo uzupełnienie danych o korekty, ewentualnie kombinację z uczeniem przez wzmacnianie. Wiele obecnych polityk end-to-end humanoidów to w gruncie rzeczy zaawansowane warianty klonowania zachowania, tyle że ze znacznie większą ilością danych i nowocześniejszą architekturą sieci.

Klonowanie zachowania (behavior cloning)

Powiązane roboty

Powiązane pojęcia