La política de difusión (diffusion policy) es una forma en que el robot genera movimiento mediante un modelo de difusión (denoising), el mismo principio que hizo famosa la generación de imágenes a partir de texto. En lugar de que la red produzca una sola acción para una observación dada, parte de ruido aleatorio y poco a poco, en varios pasos, lo «desruidiza» hasta convertirlo en una trayectoria de movimiento suave y con sentido. La acción se entiende, por tanto, como una muestra de la distribución aprendida de movimientos posibles.
Este enfoque lo describió en 2023 un influyente artículo del Toyota Research Institute (en colaboración con la Universidad de Columbia, el MIT y Stanford) y rápidamente se convirtió en uno de los estándares del aprendizaje robótico. La razón de su éxito es práctica: en las tareas de manipulación a menudo existen varias maneras igual de buenas de hacer algo (un objeto se puede agarrar por la izquierda o por la derecha). La clonación de comportamiento clásica «promedia» esas opciones y sale un disparate intermedio; el modelo de difusión, en cambio, sabe representar esa distribución multimodal y elegir una variante coherente. Además funciona bien en espacios de acción de alta dimensión y se entrena de forma estable.
La política de difusión es hoy una «cabeza de acción» popular dentro de sistemas mayores. NVIDIA, en su modelo abierto GR00T N1, empleó un Diffusion Transformer para convertir la percepción y el lenguaje en movimiento, conectando así la generación de acciones por difusión con un modelo VLA. Es una herramienta dentro del aprendizaje por imitación: la calidad del resultado sigue dependiendo de la calidad y la cantidad de los datos de demostración. En los humanoides comerciales concretos a menudo no se publican los detalles exactos de la «cabeza de acción», así que es mejor hablar de políticas de difusión en general que afirmar qué robot la usa exactamente.