Behaviorální klonování

Nejjednodušší forma imitačního učení — síť se učí přímo napodobit zaznamenané lidské akce jako úlohu „vstup → správný pohyb“.

Behaviorální klonování (behavior cloning, BC) je nejpřímější způsob, jak naučit robota imitací. Postup je jednoduchý: nasbírá se dataset párů „pozorování → akce” z lidských demonstrací a model se natrénuje tak, aby pro každé pozorování předpověděl tu akci, kterou v dané situaci provedl člověk. Z pohledu strojového učení jde o běžnou úlohu učení s učitelem (supervised learning) — robot se „klonuje” chování demonstrátora.

Je to podmnožina imitačního učení a často první krok, který výrobci zkoušejí, protože je technicky nenáročný a dobře škáluje s daty. Demonstrace přicházejí typicky z teleoperace.

Behaviorální klonování má jednu zásadní slabinu, popsanou už v 80. a 90. letech: takzvaný covariate shift (compounding errors). Model se učí jen ze stavů, které navštívil expert. Jakmile robot udělá malou chybu a dostane se do mírně jiné situace, než jakou kdy viděl v datech, neví, jak reagovat — a chyby se kumulují, dokud nedojde k selhání. Klasická ilustrace: auto natrénované jen z jízdy uprostřed pruhu se nikdy nenaučilo, jak se vrátit z kraje silnice.

Proto se čisté behaviorální klonování v praxi vylepšuje — buď chytřejším generováním akcí přes diffusion policy, nebo doplněním dat o korekce, případně kombinací se zpětnovazebním učením. Mnoho dnešních end-to-end politik humanoidů je v jádru sofistikovanou variantou behaviorálního klonování, jen s mnohem větším objemem dat a modernější architekturou sítě.

Behaviorální klonování

Související roboti

Související pojmy