El aprendizaje extremo a extremo («de extremo a extremo») significa que una única red neuronal aprende el camino directo desde la entrada hasta la salida; en un robot, típicamente desde la imagen de las cámaras hasta las órdenes para las articulaciones. Entre medias no hay módulos programados a mano del tipo «reconoce el objeto → planifica la trayectoria → calcula los ángulos». La red crea esos pasos intermedios por sí sola durante el entrenamiento.
La robótica clásica funcionaba al revés: los ingenieros componían una pipeline de bloques separados (percepción, planificación, control), donde cada uno se afinaba por separado. Es transparente y depurable, pero frágil: en el entorno impredecible de un hogar o un almacén surge un número infinito de excepciones de ese tipo. El enfoque extremo a extremo, en cambio, escala con los datos: cuantos más ejemplos, mejor generaliza la red a situaciones nuevas.
El precio que se paga es la «caja negra». Cuando el robot falla, es difícil averiguar por qué, porque la decisión está repartida entre millones de pesos. Por eso en la práctica se combina a menudo el aprendizaje con capas de seguridad y de control.
El ejemplo más conocido es el Tesla Optimus, que hereda el enfoque extremo a extremo del Tesla FSD (el piloto automático): una sola red mapea la percepción a la acción y aprende de un enorme volumen de datos humanos. Una filosofía parecida comparte Figure con su modelo Helix, que controla directamente la mitad superior del cuerpo. Estos sistemas suelen construirse como modelos VLA y entrenarse mediante aprendizaje por imitación, eventualmente afinados con aprendizaje por refuerzo. Hoy el extremo a extremo es más una dirección y una ambición que un estado ya alcanzado: la mayoría de los robots desplegados combinan componentes aprendidos y clásicos.