Навчання з підкріпленням (reinforcement learning, RL) — це підхід, за якого робот вчиться методом спроб і помилок. Ніхто не показує йому правильний рух; натомість він отримує числову винагороду, яка каже, наскільки добре він справляється (наприклад, «залишився прямо й просунувся вперед» = плюс, «впав» = мінус). Алгоритм тоді шукає стратегію (політику), яка довгостроково максимізує суму винагород. Натхнення походить з того, як вчаться люди й тварини — повторенням того, що окуповується.
Для гуманоїдів RL найсильніше у сфері руху: ходьби, бігу, утримання рівноваги та відновлення після перечеплення. Ці завдання надзвичайно важко запрограмувати вручну, але їх можна винагородити простим критерієм (не падай, йди вперед) і дати роботу самому знайти шлях. Більшість вражаючих відео динамічної ходьби в роботів на кшталт Unitree H1, Unitree G1 чи електричного Atlas ґрунтується на RL.
Проблема в тому, що метод спроб і помилок вимагає величезної кількості спроб — а їх неможливо робити в реальності, робот би зламався. Тому RL майже завжди поєднується із sim-to-real: тренування відбувається в симуляції з тисячами паралельних роботів, а готова політика переноситься в машину.
RL відрізняється від імітаційного навчання — те вчиться з людських демонстрацій, RL — з винагороди. На практиці вони комбінуються: імітація дає роботу розумний старт, а RL його доводить до ладу. Натомість RL гірше застосовне для делікатної маніпуляції, де важко розробити змістовну винагороду; там сьогодні веде імітація. Розробка правильної винагороди (reward shaping) сама по собі є складним ремеслом — погана винагорода призводить до того, що робот «шахраює» й виконує букву критерію, а не його дух.