La politique de diffusion (diffusion policy) est une manière, pour un robot, de générer le mouvement à l’aide d’un modèle de diffusion (denoising) — le même principe qui a rendu célèbre la génération d’images à partir de texte. Au lieu de produire une seule action pour une observation donnée, le réseau part d’un bruit aléatoire et le « débruite » progressivement, en plusieurs étapes, jusqu’à obtenir une trajectoire de mouvement lisse et cohérente. Il conçoit donc l’action comme un échantillon tiré d’une distribution apprise des mouvements possibles.
Cette approche a été décrite en 2023 par un article influent du Toyota Research Institute (en collaboration avec l’université Columbia, le MIT et Stanford) et est rapidement devenue l’un des standards de l’apprentissage robotique. La raison de son succès est pratique : pour les tâches de manipulation, il existe souvent plusieurs façons tout aussi bonnes de faire quelque chose (on peut saisir un objet par la gauche comme par la droite). Le clonage comportemental classique « moyenne » ces possibilités et aboutit à un non-sens au milieu ; le modèle de diffusion, au contraire, sait représenter une telle distribution multimodale et choisir une variante cohérente. De plus, il fonctionne bien dans des espaces d’action de grande dimension et s’entraîne de façon stable.
La politique de diffusion est aujourd’hui une « tête d’action » prisée au sein de systèmes plus larges. Dans son modèle ouvert GR00T N1, NVIDIA a utilisé un Diffusion Transformer pour convertir la perception et le langage en mouvement — reliant ainsi la génération d’actions par diffusion à un modèle VLA. C’est un outil au sein de l’apprentissage par imitation : la qualité du résultat dépend toujours de la qualité et de la quantité des données de démonstration. Pour les humanoïdes commerciaux concrets, les détails précis de la « tête d’action » ne sont souvent pas divulgués ; il vaut donc mieux parler de politiques de diffusion en général plutôt que d’affirmer quel robot l’utilise exactement.