Zpětnovazební učení (RL)

Robot se učí metodou pokus–omyl: za dobré chování dostává odměnu a postupně si osvojí strategii, která ji maximalizuje.

Zpětnovazební učení (reinforcement learning, RL) je přístup, kde se robot učí metodou pokus–omyl. Nikdo mu neukazuje správný pohyb; místo toho dostává číselnou odměnu, která říká, jak dobře si vede (například „zůstal vzpřímený a postoupil vpřed” = plus, „spadl” = mínus). Algoritmus pak hledá strategii (politiku), která dlouhodobě maximalizuje součet odměn. Inspirace pochází z toho, jak se učí lidé a zvířata — opakováním toho, co se vyplatí.

Pro humanoidy je RL nejsilnější v oblasti pohybu: chůze, běhu, udržení rovnováhy a obnovy po zakopnutí. Tyto úlohy je extrémně těžké naprogramovat ručně, ale dají se odměnit jednoduchým kritériem (neupadni, jdi kupředu) a nechat robota, ať si cestu najde sám. Většina působivých videí dynamické chůze u robotů jako Unitree H1, Unitree G1 nebo elektrický Atlas stojí na RL.

Problém je, že pokus–omyl vyžaduje obrovské množství pokusů — a ty se v realitě dělat nedají, robot by se rozbil. Proto se RL skoro vždy pojí se sim-to-real: trénuje se v simulaci s tisíci paralelními roboty a hotová politika se přenese do stroje.

RL se odlišuje od imitačního učení — to se učí z lidských demonstrací, RL z odměny. V praxi se kombinují: imitace dá robotovi rozumný start a RL ho doladí. RL je naopak hůř použitelné pro jemnou manipulaci, kde je těžké navrhnout smysluplnou odměnu; tam dnes vede imitace. Návrh správné odměny (reward shaping) je sám o sobě obtížné řemeslo — špatná odměna vede k tomu, že robot „podvádí” a plní literu kritéria, ne jeho ducha.

Zpětnovazební učení (RL)

Související roboti

Související pojmy