VLA ist die Abkürzung für Vision-Language-Action, also „Sehen – Sprache – Aktion”. Es ist ein Typ neuronaler Netze, der in einem einzigen Modell drei Dinge vereint: die Verarbeitung des Bildes von Kameras, das Verstehen von Sprache (einer Anweisung wie „reich mir die rote Tasse”) und die Erzeugung der Bewegung des Roboters. Entscheidend ist, dass es sich nicht um drei getrennte Systeme handelt, sondern um ein vernetztes Modell, in dem das Verstehen der Szene und der Anweisung direkt beeinflusst, wie sich der Roboter bewegt.
VLA-Modelle sind aus großen Vision-Language-Modellen (VLM) hervorgegangen, die bereits Bilder beschreiben und Text verstehen können. Diesen wird ein „Action Head” hinzugefügt, der aus der gemeinsamen Repräsentation Befehle für die Gelenke erzeugt. Damit erbt der Roboter allgemeines Wissen über die Welt aus Internetdaten und muss nicht von null lernen — deshalb wird ein VLA als eine Art Foundation Model für die Robotik betrachtet.
Ein praktisches Problem ist die Geschwindigkeit: Das Verstehen von Sprache ist „langsames Denken”, während die Motorsteuerung Hunderte Aktualisierungen pro Sekunde benötigt. Das wird mit einer Zweigeschwindigkeitsarchitektur gelöst. Figure beschreibt in seinem Modell Helix ein „System 1 / System 2”-System: Der langsame VLM-Teil läuft mit etwa 7–9 Hz und erfasst die Szene, der schnelle reaktive Teil erzeugt die Bewegung mit 200 Hz. NVIDIA verwendete bei seinem offenen Modell GR00T N1 einen ähnlichen Zweisystem-Ansatz mit einem Diffusion Transformer im Aktionsteil — das verbindet VLA mit der Diffusion Policy.
Ein VLA lernt typischerweise durch imitierendes Lernen aus menschlichen Demonstrationen. Es ist heute die heißeste Richtung bei der Entwicklung des „Gehirns” von Humanoiden — aber noch jung: Die Zuverlässigkeit bei neuen Aufgaben bleibt die größte Herausforderung.