VLA je zkratka pro vision-language-action, tedy „vidění – jazyk – akce”. Je to typ neuronové sítě, který v jediném modelu spojuje tři věci: zpracování obrazu z kamer, porozumění jazyku (pokynu jako „podej mi červený hrnek”) a generování pohybu robota. Klíčové je, že se nejedná o tři oddělené systémy, ale o propojený model, kde porozumění scéně i instrukci přímo ovlivňuje, jak se robot pohne.
VLA modely vyrostly z velkých vision-language modelů (VLM), které už umějí popisovat obrázky a chápat text. K nim se přidá „akční hlava”, která ze sdílené reprezentace generuje povely pro klouby. Tím robot zdědí obecné znalosti o světě z internetových dat a nemusí se učit od nuly — proto bývá VLA považován za druh foundation modelu pro robotiku.
Praktický problém je rychlost: porozumění jazyku je „pomalé myšlení”, zatímco řízení motorů potřebuje stovky aktualizací za sekundu. Řeší se to dvourychlostní architekturou. Figure ve svém modelu Helix popisuje systém „System 1 / System 2”: pomalá VLM část běží kolem 7–9 Hz a chápe scénu, rychlá reaktivní část generuje pohyb na 200 Hz. NVIDIA u svého otevřeného modelu GR00T N1 použila podobný dvousystémový přístup s Diffusion Transformerem v akční části — to propojuje VLA s diffusion policy.
VLA se typicky učí imitačním učením z lidských demonstrací. Je to dnes nejžhavější směr ve vývoji „mozku” humanoidů — ale stále mladý: spolehlivost na nových úkolech zůstává hlavní výzvou.