El aprendizaje por imitación es una familia de métodos en los que el robot aprende una tarea imitando cómo la hace una persona. En lugar de que un ingeniero escriba un programa de tipo «si… entonces…» o defina una recompensa matemática, se le muestran al robot muchos ejemplos de la ejecución correcta y el modelo aprende a partir de ellos a transformar la percepción (lo que ve) en acción (cómo moverse).
Las demostraciones se generan con mayor frecuencia mediante teleoperación: el operador realiza la tarea con el robot y se registran pares de «observación → movimiento». Así surge un conjunto de datos con el que se entrena el modelo. La variante más simple del aprendizaje por imitación es la clonación de comportamiento, donde la red aprende sencillamente a imitar las acciones registradas. Los enfoques más modernos generan las acciones mediante política de difusión, lo que maneja mejor las situaciones en las que existe más de una forma correcta de hacer la tarea.
La principal ventaja es que a las personas les resulta natural demostrar una tarea, pero difícil programarla con exactitud: esa es la esencia de la paradoja de Moravec. Su punto débil es el llamado distribution shift: en cuanto el robot llega a un estado que no estaba en los datos (por ejemplo, falla por poco al agarrar un objeto), no tiene en qué basarse y los errores pueden acumularse. Por eso el aprendizaje por imitación se combina a menudo con el aprendizaje por refuerzo, que afina la política a base de pruebas.
Casi todos los fabricantes actuales de humanoides «que aprenden» se apoyan en el aprendizaje por imitación: Figure, Tesla, 1X y otros recopilan demostraciones humanas a gran escala. Es el motor que impulsa el volante de datos de todo el sector.