Diffusion policy

Метод генерування руху робота за допомогою дифузійної моделі — замість єдиної дії вона «знешумлює» цілу плавну траєкторію і добре опановує кілька правильних розв’язків.

Diffusion policy — це спосіб, у який робот генерує рух за допомогою дифузійної (denoising) моделі — того самого принципу, що уславив генерування зображень із тексту. Замість того щоб мережа для заданого спостереження видавала одну дію, вона починає з випадкового шуму й поступово, за кілька кроків, «знешумлює» його в плавну, осмислену траєкторію руху. Отже, дію вона розуміє як зразок із вивченого розподілу можливих рухів.

Цей підхід описала у 2023 році впливова стаття з Toyota Research Institute (у співпраці з Columbia University, MIT і Stanford) і він швидко став одним зі стандартів у робототехнічному навчанні. Причина його успіху практична: у маніпуляційних завданнях часто існує кілька однаково добрих способів щось зробити (предмет можна взяти зліва і справа). Класичне поведінкове клонування ці можливості «усереднює», і виходить нісенітниця посередині; натомість дифузійна модель уміє представити такий мультимодальний розподіл і вибрати один узгоджений варіант. До того ж вона добре працює у високовимірних просторах дій і тренується стабільно.

Diffusion policy сьогодні є популярною «головою дій» усередині більших систем. NVIDIA у своїй відкритій моделі GR00T N1 використала Diffusion Transformer для перетворення сприйняття й мови на рух — поєднуючи таким чином дифузійне генерування дій із VLA-моделлю. Це інструмент у рамках імітаційного навчання: якість результату все одно залежить від якості та обсягу демонстраційних даних. Для конкретних комерційних гуманоїдів точні деталі «голови дій» часто не оприлюднюють, тому краще говорити про дифузійні політики загалом, ніж стверджувати, який саме робот її використовує.

Пов’язані роботи

Пов’язані терміни