Apprentissage par renforcement (RL)

Le robot apprend par essais et erreurs : un bon comportement lui vaut une récompense et il acquiert peu à peu une stratégie qui la maximise.

L’apprentissage par renforcement (reinforcement learning, RL) est une approche où le robot apprend par essais et erreurs. Personne ne lui montre le bon mouvement ; à la place, il reçoit une récompense numérique qui indique à quel point il s’en sort (par exemple « il est resté droit et a avancé » = plus, « il est tombé » = moins). L’algorithme cherche alors une stratégie (une politique) qui maximise à long terme la somme des récompenses. L’inspiration vient de la façon dont apprennent les humains et les animaux — en répétant ce qui paie.

Pour les humanoïdes, le RL est le plus puissant dans le domaine du mouvement : la marche, la course, le maintien de l’équilibre et le rétablissement après un trébuchement. Ces tâches sont extrêmement difficiles à programmer à la main, mais elles peuvent être récompensées par un critère simple (ne tombe pas, avance) en laissant le robot trouver lui-même son chemin. La plupart des vidéos impressionnantes de marche dynamique de robots comme Unitree H1, Unitree G1 ou l’Atlas électrique reposent sur le RL.

Le problème est que les essais et erreurs exigent un nombre énorme de tentatives — qu’il est impossible de réaliser dans la réalité, car le robot se casserait. C’est pourquoi le RL est presque toujours associé au sim-to-real : on s’entraîne en simulation avec des milliers de robots parallèles, puis on transfère la politique achevée vers la machine.

Le RL se distingue de l’apprentissage par imitation — celui-ci apprend à partir de démonstrations humaines, le RL à partir de la récompense. En pratique, on les combine : l’imitation donne au robot un départ raisonnable et le RL l’affine. Le RL est en revanche moins applicable à la manipulation fine, où il est difficile de concevoir une récompense pertinente ; là, c’est aujourd’hui l’imitation qui domine. La conception d’une bonne récompense (reward shaping) est en soi un métier difficile — une mauvaise récompense conduit le robot à « tricher » et à respecter la lettre du critère, non son esprit.

Apprentissage par renforcement (RL)

Robots liés

Termes liés