Diffusion policy

Metoda generowania ruchu robota za pomocą modelu dyfuzyjnego — zamiast jednej akcji „odszumiuje” całą płynną trajektorię i dobrze radzi sobie z wieloma poprawnymi rozwiązaniami.

Diffusion policy to sposób, w jaki robot generuje ruch za pomocą modelu dyfuzyjnego (denoising) — tej samej zasady, którą spopularyzowało generowanie obrazów z tekstu. Zamiast wydawać dla danej obserwacji jedną akcję, sieć zaczyna od losowego szumu i stopniowo go w kilku krokach „odszumiuje” do gładkiej, sensownej trajektorii ruchu. Akcję traktuje więc jako próbkę z wyuczonego rozkładu możliwych ruchów.

Podejście to opisał w 2023 roku wpływowy artykuł z Toyota Research Institute (we współpracy z Columbia University, MIT i Stanfordem) i szybko stało się jednym ze standardów w robotycznym uczeniu. Powód jego sukcesu jest praktyczny: przy zadaniach manipulacyjnych często istnieje więcej równie dobrych sposobów wykonania czegoś (przedmiot można chwycić z lewej lub z prawej). Klasyczne klonowanie zachowania te możliwości „uśrednia” i wychodzi bezsens pośrodku; model dyfuzyjny potrafi natomiast reprezentować taki wielomodalny rozkład i wybrać jeden spójny wariant. Działa ponadto dobrze w przestrzeniach akcji o wysokiej wymiarowości i trenuje się stabilnie.

Diffusion policy jest dziś popularną „głową akcji” wewnątrz większych systemów. NVIDIA w swoim otwartym modelu GR00T N1 użyła Diffusion Transformera do zamiany percepcji i języka na ruch — łącząc w ten sposób dyfuzyjne generowanie akcji z modelem VLA. Jest to narzędzie w ramach uczenia przez imitację: jakość wyników nadal zależy od jakości i ilości danych demonstracyjnych. W przypadku konkretnych komercyjnych humanoidów szczegóły „głowy akcji” często nie są ujawniane, dlatego lepiej mówić o politykach dyfuzyjnych ogólnie, niż twierdzić, który robot dokładnie jej używa.

Powiązane roboty

Powiązane pojęcia