Apprentissage par imitation (imitation learning)

Le robot apprend une tâche en imitant des démonstrations humaines, au lieu d’écrire un programme explicite ou de définir une récompense.

L’apprentissage par imitation est une famille de méthodes où le robot apprend une tâche en imitant la façon dont un humain l’accomplit. Au lieu qu’un ingénieur écrive un programme « si … alors … » ou définisse une récompense mathématique, on montre au robot de nombreux exemples d’exécution correcte, et le modèle apprend à partir d’eux à convertir la perception (ce qu’il voit) en action (comment se mouvoir).

Les démonstrations naissent le plus souvent de la téléopération — un opérateur fait exécuter la tâche au robot, et l’on enregistre les paires « observation → mouvement ». On obtient ainsi un jeu de données sur lequel le modèle s’entraîne. La variante la plus simple de l’apprentissage par imitation est le clonage comportemental, où le réseau apprend simplement à reproduire les actions enregistrées. Des approches plus modernes génèrent les actions via une politique de diffusion, ce qui gère mieux les situations où il existe plusieurs bonnes façons d’accomplir la tâche.

Le principal avantage est qu’il est naturel pour les humains de démontrer une tâche, mais difficile de la programmer précisément — c’est l’essence du paradoxe de Moravec. La faiblesse est ce que l’on appelle le distribution shift : dès que le robot se retrouve dans un état absent des données (par exemple s’il manque légèrement l’objet), il n’a rien sur quoi s’appuyer et les erreurs peuvent s’accumuler. C’est pourquoi l’apprentissage par imitation est souvent combiné à l’apprentissage par renforcement, qui affine la politique par l’essai.

Presque tous les fabricants actuels d’humanoïdes « apprenants » reposent sur l’apprentissage par imitation — Figure, Tesla, 1X et d’autres collectent des démonstrations humaines à grande échelle. C’est le moteur qui entraîne le volant de données de tout le domaine.

Apprentissage par imitation (imitation learning)

Robots liés

Termes liés