Modelo VLA (vision-language-action)

Red neuronal que une visión, lenguaje y movimiento en un solo modelo: a partir de la imagen y una instrucción de texto, el robot genera directamente la acción.

VLA es la sigla de vision-language-action, es decir, «visión – lenguaje – acción». Es un tipo de red neuronal que en un solo modelo une tres cosas: el procesamiento de la imagen de las cámaras, la comprensión del lenguaje (de una instrucción como «pásame la taza roja») y la generación del movimiento del robot. Lo clave es que no se trata de tres sistemas separados, sino de un modelo conectado en el que la comprensión de la escena y de la instrucción influye directamente en cómo se mueve el robot.

Los modelos VLA crecieron a partir de los grandes modelos de visión-lenguaje (VLM), que ya saben describir imágenes y entender texto. A ellos se les añade una «cabeza de acción» que, a partir de la representación compartida, genera órdenes para las articulaciones. Así el robot hereda conocimientos generales sobre el mundo procedentes de datos de internet y no tiene que aprender desde cero; por eso el VLA suele considerarse una especie de modelo fundacional para la robótica.

El problema práctico es la velocidad: la comprensión del lenguaje es «pensamiento lento», mientras que el control de los motores necesita cientos de actualizaciones por segundo. Se resuelve con una arquitectura de dos velocidades. Figure, en su modelo Helix, describe un sistema «System 1 / System 2»: la parte VLM lenta corre en torno a 7–9 Hz y comprende la escena, mientras que la parte reactiva rápida genera el movimiento a 200 Hz. NVIDIA, en su modelo abierto GR00T N1, empleó un enfoque de dos sistemas similar con un Diffusion Transformer en la parte de acción, lo que conecta el VLA con la diffusion policy.

Los VLA suelen aprender mediante aprendizaje por imitación a partir de demostraciones humanas. Es hoy la dirección más en boga en el desarrollo del «cerebro» de los humanoides, pero todavía joven: la fiabilidad en tareas nuevas sigue siendo el principal reto.

Modelo VLA (vision-language-action)

Robots relacionados

Términos relacionados