Імітаційне навчання (imitation learning)

Робот вчиться завдання, наслідуючи людські демонстрації, замість написання явної програми чи визначення винагороди.

Імітаційне навчання — це родина методів, за яких робот опановує завдання, наслідуючи, як його виконує людина. Замість того щоб інженер написав програму «якщо … то …» або визначив математичну винагороду, роботові показують багато прикладів правильного виконання, і модель вчиться з них перетворювати сприйняття (що він бачить) на дію (як рухатися).

Демонстрації найчастіше виникають через телеоперацію — оператор виконує завдання за допомогою робота, і записуються пари «спостереження → рух». Так утворюється набір даних, на якому тренують модель. Найпростішим варіантом імітаційного навчання є клонування поведінки, де мережа вчиться просто відтворювати записані дії. Сучасніші підходи генерують дії через diffusion policy, що краще дає раду із ситуаціями, де існує кілька правильних способів виконати завдання.

Головна перевага в тому, що людям природно показати завдання, але важко точно його запрограмувати — це і є суть парадокса Моравека. Слабким місцем є так званий зсув розподілу (distribution shift): щойно робот потрапляє у стан, якого не було в даних (наприклад, трохи промахується повз предмет), йому немає на що спертися, і помилки можуть накопичуватися. Тому імітаційне навчання часто поєднують із навчанням з підкріпленням, яке доналаштовує політику через спроби.

Майже всі сьогоднішні виробники «навчаних» людиноподібних роботів ґрунтуються на імітаційному навчанні — Figure, Tesla, 1X та інші збирають людські демонстрації у великому масштабі. Це двигун, який живить маховик даних усієї галузі.

Імітаційне навчання (imitation learning)

Пов’язані роботи

Пов’язані терміни