Diffusion policy

Metoda generování pohybu robota pomocí difuzního modelu — místo jediné akce „odšumuje“ celou plynulou trajektorii a dobře zvládá víc správných řešení.

Diffusion policy je způsob, jak robot generuje pohyb pomocí difuzního (denoising) modelu — stejného principu, jaký proslavil generování obrázků z textu. Místo aby síť pro dané pozorování vydala jednu akci, začne náhodným šumem a postupně ho v několika krocích „odšumuje” do hladké, smysluplné trajektorie pohybu. Akci tedy chápe jako vzorek z naučeného rozdělení možných pohybů.

Tento přístup popsal v roce 2023 vlivný článek z Toyota Research Institute (ve spolupráci s Columbia University, MIT a Stanfordem) a rychle se stal jedním ze standardů v robotickém učení. Důvod jeho úspěchu je praktický: u manipulačních úkolů často existuje víc stejně dobrých způsobů, jak něco udělat (předmět lze uchopit zleva i zprava). Klasické behaviorální klonování tyto možnosti „zprůměruje” a vyjde nesmysl uprostřed; difuzní model naopak umí reprezentovat takové multimodální rozdělení a vybrat jednu konzistentní variantu. Navíc dobře funguje ve vysokorozměrných akčních prostorech a trénuje se stabilně.

Diffusion policy je dnes oblíbenou „akční hlavou” uvnitř větších systémů. NVIDIA ve svém otevřeném modelu GR00T N1 použila Diffusion Transformer k převodu vnímání a jazyka na pohyb — propojuje tak difuzní generování akcí s VLA modelem. Je to nástroj v rámci imitačního učení: kvalita výsledku stále závisí na kvalitě a množství demonstračních dat. U konkrétních komerčních humanoidů se přesné detaily „akční hlavy” často nezveřejňují, proto je lepší mluvit o difuzních politikách obecně než tvrdit, který robot ji přesně používá.

Související roboti

Související pojmy