Поведінкове клонування

Найпростіша форма імітаційного навчання — мережа вчиться безпосередньо відтворювати записані людські дії як задачу «вхід → правильний рух».

Поведінкове клонування (behavior cloning, BC) — це найпряміший спосіб навчити робота за допомогою імітації. Підхід простий: збирається набір даних із пар «спостереження → дія» з людських демонстрацій, і модель тренують так, щоб для кожного спостереження вона передбачала ту дію, яку в цій ситуації виконала людина. З погляду машинного навчання це звичайна задача навчання з учителем (supervised learning) — робот «клонує» поведінку демонстратора.

Це підмножина імітаційного навчання і часто перший крок, який пробують виробники, бо він технічно нескладний і добре масштабується з обсягом даних. Демонстрації зазвичай надходять із телеоперації.

Поведінкове клонування має одну принципову слабкість, описану ще у 80-х і 90-х роках: так званий зсув коваріації (covariate shift, накопичення помилок). Модель вчиться лише зі станів, які відвідав експерт. Щойно робот припускається невеликої помилки й потрапляє в ситуацію, дещо відмінну від тих, які він колись бачив у даних, він не знає, як реагувати — і помилки накопичуються, доки не настане відмова. Класична ілюстрація: автомобіль, натренований лише на їзді посередині смуги, так і не навчився, як повернутися з узбіччя дороги.

Тому чисте поведінкове клонування на практиці вдосконалюють — або розумнішим генеруванням дій через diffusion policy, або доповненням даних коригуваннями, чи поєднанням із навчанням з підкріпленням. Багато сучасних наскрізних (end-to-end) політик гуманоїдів у своїй основі є витонченим варіантом поведінкового клонування, лише з набагато більшим обсягом даних і сучаснішою архітектурою мережі.

Поведінкове клонування

Пов’язані роботи

Пов’язані терміни