Le clonage comportemental (behavior cloning, BC) est la manière la plus directe d’apprendre à un robot par imitation. Le procédé est simple : on collecte un jeu de données de paires « observation → action » à partir de démonstrations humaines, puis on entraîne le modèle de sorte que, pour chaque observation, il prédise l’action qu’un humain a réalisée dans la situation donnée. Du point de vue de l’apprentissage automatique, il s’agit d’une tâche classique d’apprentissage supervisé — le robot « clone » le comportement du démonstrateur.
C’est un sous-ensemble de l’apprentissage par imitation et souvent la première étape que tentent les fabricants, car il est techniquement peu exigeant et passe bien à l’échelle avec les données. Les démonstrations proviennent typiquement de la téléopération.
Le clonage comportemental présente une faiblesse fondamentale, décrite dès les années 1980 et 1990 : ce que l’on appelle le covariate shift (compounding errors). Le modèle n’apprend qu’à partir des états visités par l’expert. Dès que le robot commet une petite erreur et se retrouve dans une situation légèrement différente de tout ce qu’il a vu dans les données, il ne sait pas comment réagir — et les erreurs s’accumulent jusqu’à l’échec. Illustration classique : une voiture entraînée uniquement à rouler au milieu de la voie n’a jamais appris comment revenir du bord de la route.
C’est pourquoi le clonage comportemental pur est amélioré en pratique — soit par une génération d’actions plus intelligente via une politique de diffusion, soit en complétant les données par des corrections, soit éventuellement en le combinant avec l’apprentissage par renforcement. Beaucoup de politiques de bout en bout des humanoïdes actuels sont, au fond, une variante sophistiquée du clonage comportemental, simplement avec un volume de données bien plus grand et une architecture de réseau plus moderne.