Diffusion Policy ist eine Methode, mit der ein Roboter Bewegungen über ein Diffusionsmodell (Denoising-Modell) erzeugt — nach demselben Prinzip, das die Erzeugung von Bildern aus Text bekannt gemacht hat. Statt für eine gegebene Beobachtung eine einzelne Aktion auszugeben, beginnt das Netz mit zufälligem Rauschen und „entrauscht” es in mehreren Schritten schrittweise zu einer glatten, sinnvollen Bewegungstrajektorie. Die Aktion versteht es somit als Stichprobe aus einer gelernten Verteilung möglicher Bewegungen.
Diesen Ansatz beschrieb im Jahr 2023 ein einflussreicher Artikel des Toyota Research Institute (in Zusammenarbeit mit der Columbia University, dem MIT und Stanford), und er wurde rasch zu einem der Standards im Roboterlernen. Der Grund für seinen Erfolg ist praktischer Natur: Bei Manipulationsaufgaben gibt es oft mehrere gleich gute Arten, etwas zu tun (ein Gegenstand lässt sich von links wie von rechts greifen). Klassisches Behavioral Cloning „mittelt” diese Möglichkeiten und erzeugt einen Unsinn in der Mitte; das Diffusionsmodell hingegen kann eine solche multimodale Verteilung repräsentieren und eine konsistente Variante auswählen. Zudem funktioniert es gut in hochdimensionalen Aktionsräumen und lässt sich stabil trainieren.
Diffusion Policy ist heute ein beliebter „Action Head” innerhalb größerer Systeme. NVIDIA verwendete in seinem offenen Modell GR00T N1 einen Diffusion Transformer, um Wahrnehmung und Sprache in Bewegung umzusetzen — und verknüpft so die diffusionsbasierte Erzeugung von Aktionen mit einem VLA-Modell. Es ist ein Werkzeug im Rahmen des Imitationslernens: Die Qualität des Ergebnisses hängt nach wie vor von der Qualität und Menge der Demonstrationsdaten ab. Bei konkreten kommerziellen Humanoiden werden die genauen Details des „Action Head” oft nicht veröffentlicht, weshalb es besser ist, allgemein von Diffusion Policies zu sprechen, als zu behaupten, welcher Roboter sie genau verwendet.