Das bestärkende Lernen (reinforcement learning, RL) ist ein Ansatz, bei dem der Roboter durch Versuch und Irrtum lernt. Niemand zeigt ihm die richtige Bewegung; stattdessen erhält er eine numerische Belohnung, die angibt, wie gut er sich schlägt (zum Beispiel „aufrecht geblieben und vorangekommen” = plus, „gestürzt” = minus). Der Algorithmus sucht dann eine Strategie (Policy), die langfristig die Summe der Belohnungen maximiert. Die Inspiration stammt daher, wie Menschen und Tiere lernen — durch Wiederholung dessen, was sich auszahlt.
Für Humanoide ist RL am stärksten im Bereich der Fortbewegung: Gehen, Laufen, Halten des Gleichgewichts und Erholung nach einem Stolpern. Diese Aufgaben sind extrem schwer von Hand zu programmieren, lassen sich aber mit einem einfachen Kriterium belohnen (fall nicht, geh vorwärts) und dem Roboter überlassen, den Weg selbst zu finden. Die meisten beeindruckenden Videos dynamischen Gehens bei Robotern wie Unitree H1, Unitree G1 oder dem elektrischen Atlas beruhen auf RL.
Das Problem ist, dass Versuch und Irrtum eine enorme Menge an Versuchen erfordert — und die lassen sich in der Realität nicht durchführen, der Roboter würde kaputtgehen. Deshalb verbindet sich RL fast immer mit Sim-to-Real: Trainiert wird in der Simulation mit Tausenden parallelen Robotern, und die fertige Policy wird auf die Maschine übertragen.
RL unterscheidet sich vom imitativen Lernen — dieses lernt aus menschlichen Demonstrationen, RL aus der Belohnung. In der Praxis werden sie kombiniert: Die Imitation gibt dem Roboter einen vernünftigen Start, und RL feilt ihn nach. RL ist umgekehrt schlechter geeignet für feine Manipulation, bei der es schwer ist, eine sinnvolle Belohnung zu entwerfen; dort führt heute die Imitation. Das Entwerfen der richtigen Belohnung (Reward Shaping) ist an sich ein schwieriges Handwerk — eine schlechte Belohnung führt dazu, dass der Roboter „schummelt” und den Buchstaben des Kriteriums erfüllt, nicht seinen Geist.