VLA est l’abréviation de vision-language-action, soit « vision – langage – action ». C’est un type de réseau de neurones qui réunit en un seul modèle trois choses : le traitement de l’image des caméras, la compréhension du langage (d’une instruction comme « passe-moi la tasse rouge ») et la génération du mouvement du robot. L’essentiel est qu’il ne s’agit pas de trois systèmes séparés, mais d’un modèle interconnecté où la compréhension de la scène et de l’instruction influence directement la façon dont le robot se déplace.
Les modèles VLA sont issus des grands modèles vision-langage (VLM), qui savent déjà décrire des images et comprendre du texte. On leur ajoute une « tête d’action » qui, à partir de la représentation partagée, génère des commandes pour les articulations. Le robot hérite ainsi de connaissances générales sur le monde issues des données d’internet et n’a pas à apprendre à partir de zéro — c’est pourquoi le VLA est considéré comme une sorte de modèle de fondation pour la robotique.
Le problème pratique est la vitesse : la compréhension du langage est une « pensée lente », alors que la commande des moteurs nécessite des centaines de mises à jour par seconde. On y remédie par une architecture à deux vitesses. Figure décrit dans son modèle Helix un système « System 1 / System 2 » : la partie VLM lente tourne autour de 7 à 9 Hz et comprend la scène, tandis que la partie réactive rapide génère le mouvement à 200 Hz. NVIDIA a utilisé, dans son modèle ouvert GR00T N1, une approche similaire à deux systèmes avec un Diffusion Transformer dans la partie action — cela relie le VLA à la politique de diffusion.
Le VLA s’apprend typiquement par apprentissage par imitation à partir de démonstrations humaines. C’est aujourd’hui l’orientation la plus en vogue dans le développement du « cerveau » des humanoïdes — mais elle reste jeune : la fiabilité sur de nouvelles tâches demeure le principal défi.