← Volver a la enciclopedia

Aprendizaje por refuerzo (RL)

El robot aprende por ensayo y error: por un buen comportamiento recibe una recompensa y poco a poco adquiere una estrategia que la maximiza.

El aprendizaje por refuerzo (reinforcement learning, RL) es un enfoque en el que el robot aprende por ensayo y error. Nadie le muestra el movimiento correcto; en su lugar recibe una recompensa numérica que indica lo bien que lo está haciendo (por ejemplo, «se mantuvo erguido y avanzó» = positivo, «se cayó» = negativo). El algoritmo busca entonces una estrategia (política) que maximice a largo plazo la suma de recompensas. La inspiración procede de cómo aprenden las personas y los animales: repitiendo lo que da resultado.

Para los humanoides, el RL es más potente en el ámbito del movimiento: marcha, carrera, mantenimiento del equilibrio y recuperación tras un tropiezo. Estas tareas son extremadamente difíciles de programar a mano, pero pueden recompensarse con un criterio sencillo (no caigas, avanza) y dejar que el robot encuentre el camino por sí mismo. La mayoría de los vídeos impresionantes de marcha dinámica de robots como Unitree H1, Unitree G1 o el Atlas eléctrico se apoyan en RL.

El problema es que el ensayo y error exige una enorme cantidad de intentos, y esos no se pueden hacer en la realidad: el robot se rompería. Por eso el RL casi siempre va de la mano del sim-to-real: se entrena en simulación con miles de robots en paralelo y la política terminada se transfiere a la máquina.

El RL se diferencia del aprendizaje por imitación, que aprende de demostraciones humanas, mientras que el RL aprende de la recompensa. En la práctica se combinan: la imitación da al robot un punto de partida razonable y el RL lo afina. En cambio, el RL es más difícil de aplicar a la manipulación fina, donde resulta complicado diseñar una recompensa con sentido; ahí hoy lidera la imitación. Diseñar la recompensa adecuada (reward shaping) es por sí mismo un oficio difícil: una mala recompensa lleva a que el robot «haga trampa» y cumpla la letra del criterio, no su espíritu.

Robots relacionados

Términos relacionados