Clonación de comportamiento

La forma más simple de aprendizaje por imitación: la red aprende a reproducir directamente las acciones humanas registradas como una tarea «entrada → movimiento correcto».

La clonación de comportamiento (behavior cloning, BC) es la manera más directa de enseñar a un robot mediante imitación. El procedimiento es sencillo: se recopila un conjunto de datos de pares «observación → acción» a partir de demostraciones humanas y el modelo se entrena para que, ante cada observación, prediga la acción que la persona realizó en esa situación. Desde el punto de vista del aprendizaje automático se trata de una tarea habitual de aprendizaje supervisado: el robot «clona» el comportamiento del demostrador.

Es un subconjunto del aprendizaje por imitación y a menudo el primer paso que prueban los fabricantes, porque es técnicamente poco exigente y escala bien con los datos. Las demostraciones provienen normalmente de la teleoperación.

La clonación de comportamiento tiene una debilidad fundamental, descrita ya en los años 80 y 90: el llamado covariate shift (errores acumulativos). El modelo aprende solo de los estados que visitó el experto. En cuanto el robot comete un pequeño error y llega a una situación algo distinta de las que vio en los datos, no sabe cómo reaccionar, y los errores se acumulan hasta que se produce un fallo. La ilustración clásica: un coche entrenado solo con conducción en el centro del carril nunca aprendió a volver desde el borde de la carretera.

Por eso la clonación de comportamiento pura se mejora en la práctica, ya sea con una generación de acciones más inteligente mediante política de difusión, añadiendo datos de corrección o combinándola con aprendizaje por refuerzo. Muchas de las políticas extremo a extremo actuales de los humanoides son, en esencia, una variante sofisticada de la clonación de comportamiento, solo que con un volumen de datos mucho mayor y una arquitectura de red más moderna.

Clonación de comportamiento

Robots relacionados

Términos relacionados