VLA — це скорочення від vision-language-action, тобто „зір – мова – дія”. Це тип нейронної мережі, який в одній моделі поєднує три речі: обробку зображення з камер, розуміння мови (вказівки на кшталт „подай мені червоний кухоль”) і генерування руху робота. Ключове те, що йдеться не про три окремі системи, а про поєднану модель, де розуміння сцени та інструкції безпосередньо впливає на те, як робот рухнеться.
VLA-моделі виросли з великих vision-language-моделей (VLM), які вже вміють описувати зображення та розуміти текст. До них додають „дієву голову”, яка зі спільної репрезентації генерує команди для суглобів. Так робот успадковує загальні знання про світ з інтернетних даних і не мусить вчитися з нуля — тому VLA вважають різновидом foundation-моделі для робототехніки.
Практична проблема — швидкість: розуміння мови є „повільним мисленням”, тоді як керування моторами потребує сотень оновлень за секунду. Це розв’язують двошвидкісною архітектурою. Figure у своїй моделі Helix описує систему „System 1 / System 2”: повільна VLM-частина працює близько 7–9 Hz і розуміє сцену, швидка реактивна частина генерує рух на 200 Hz. NVIDIA у своїй відкритій моделі GR00T N1 застосувала подібний двосистемний підхід із Diffusion Transformer у дієвій частині — це поєднує VLA з diffusion policy.
VLA зазвичай учиться імітаційним навчанням з людських демонстрацій. Це сьогодні найгарячіший напрям у розробці „мозку” гуманоїдів — але все ще молодий: надійність на нових завданнях залишається головним викликом.