VLA to skrót od vision-language-action, czyli „widzenie – język – akcja”. Jest to typ sieci neuronowej, która w jednym modelu łączy trzy elementy: przetwarzanie obrazu z kamer, rozumienie języka (polecenia w stylu „podaj mi czerwony kubek”) i generowanie ruchu robota. Kluczowe jest to, że nie są to trzy oddzielne systemy, lecz połączony model, w którym rozumienie sceny i instrukcji bezpośrednio wpływa na to, jak robot się porusza.
Modele VLA wyrosły z dużych modeli vision-language (VLM), które już potrafią opisywać obrazy i rozumieć tekst. Do nich dołącza się „głowica akcji”, która ze wspólnej reprezentacji generuje polecenia dla stawów. Dzięki temu robot dziedziczy ogólną wiedzę o świecie z danych internetowych i nie musi uczyć się od zera — dlatego VLA bywa uznawany za rodzaj modelu fundamentalnego dla robotyki.
Praktycznym problemem jest szybkość: rozumienie języka to „wolne myślenie”, natomiast sterowanie silnikami wymaga setek aktualizacji na sekundę. Rozwiązaniem jest architektura dwuprędkościowa. Figure w swoim modelu Helix opisuje system „System 1 / System 2”: wolna część VLM działa z częstotliwością około 7–9 Hz i rozumie scenę, szybka część reaktywna generuje ruch z częstotliwością 200 Hz. NVIDIA w swoim otwartym modelu GR00T N1 zastosowała podobne dwusystemowe podejście z Diffusion Transformerem w części akcyjnej — co łączy VLA z diffusion policy.
Model VLA typowo uczy się uczeniem przez imitację na podstawie ludzkich demonstracji. To dziś najbardziej gorący kierunek w rozwoju „mózgu” humanoidów — choć wciąż młody: niezawodność przy nowych zadaniach pozostaje głównym wyzwaniem.