Imitační učení (imitation learning)

Robot se učí úkol napodobováním lidských demonstrací místo psaní explicitního programu nebo definování odměny.

Imitační učení je rodina metod, kde se robot naučí úkol tak, že napodobuje, jak ho dělá člověk. Místo aby inženýr napsal program „pokud … pak …” nebo definoval matematickou odměnu, ukáže se robotovi mnoho příkladů správného provedení a model se z nich naučí převádět vjem (co vidí) na akci (jak se pohnout).

Demonstrace vznikají nejčastěji teleoperací — operátor robotem provede úkol a zaznamenají se páry „pozorování → pohyb”. Vznikne tak dataset, na kterém se model trénuje. Nejjednodušší variantou imitačního učení je behaviorální klonování, kde se síť učí prostě napodobit zaznamenané akce. Modernější přístupy generují akce přes diffusion policy, což lépe zvládá situace, kde existuje víc správných způsobů, jak úkol udělat.

Hlavní výhodou je, že lidem je přirozené úkol předvést, ale těžké ho přesně naprogramovat — to je podstata Moravecova paradoxu. Slabinou je takzvaný distribution shift: jakmile se robot dostane do stavu, který v datech nebyl (například mírně mine předmět), nemá se podle čeho zařídit a chyby se mohou nabalovat. Proto se imitační učení často kombinuje se zpětnovazebním učením, které politiku doladí zkoušením.

Téměř všichni dnešní výrobci „učících se” humanoidů na imitačním učení stojí — Figure, Tesla, 1X i další sbírají lidské demonstrace ve velkém. Je to motor, který pohání datový setrvačník celého oboru.

Imitační učení (imitation learning)

Související roboti

Související pojmy