Cómo funcionan los robots humanoides

Desde los motores de las articulaciones, pasando por la batería y los sensores, hasta la inteligencia artificial que gobierna la marcha y las manos. Una guía comprensible de lo que se esconde dentro de un humanoide moderno.

Un robot humanoide parece a primera vista una imitación mecánica del ser humano. En realidad es una de las máquinas más exigentes que los ingenieros construyen hoy: debe mantener el equilibrio sobre dos piernas, manipular objetos frágiles y, además, «entender» lo que se le pide. Echemos un vistazo a su interior, capa por capa, desde el hierro hasta la inteligencia artificial.

Esqueleto y articulaciones: donde nace el movimiento

La base de todo humanoide es el llamado número de grados de libertad (degrees of freedom, DOF), es decir, cuántos ejes de movimiento independientes tiene el robot. Cuantas más articulaciones, más diestro y humano es el movimiento, pero también más cara y compleja es la máquina. Las diferencias en la práctica son enormes: un robot de investigación sencillo como el Unitree G1 tiene 23 grados de libertad, mientras que el Atlas de Boston Dynamics tiene 56 y el experimental Protoclone de la empresa polaca Clone Robotics presume incluso de 200, porque imita la anatomía humana, incluidos músculos y huesos artificiales.

Cada articulación necesita un accionamiento: un actuador. Y es justo aquí donde se ha producido una revolución silenciosa en los últimos años.

Actuadores: los músculos del robot

Hasta hace poco era cierto que los humanoides más potentes usaban hidráulica: la presión del aceite en los pistones. La vieja versión hidráulica del Atlas sabía dar volteretas, pero era ruidosa, cara, pesada y propensa a las fugas de aceite. Por eso Boston Dynamics jubiló oficialmente en 2024 al Atlas hidráulico y lo sustituyó por una versión totalmente eléctrica.

Los humanoides actuales usan, pues, casi sin excepción actuadores eléctricos. Funcionan en dos variantes principales:

Actuadores rotativos: combinación de un motor eléctrico sin escobillas y del llamado reductor armónico (strain wave gearing). Este puede multiplicar enormemente el par motor en una carcasa pequeña y ligera. Es adecuado para las articulaciones que sobre todo giran: hombros, muñecas, caderas.
Actuadores lineales con tracción por cables (tendon drive): imitan el principio del tendón humano. Un motor en el antebrazo tira de un cable que flexiona el dedo. ¿La ventaja? Los motores pesados quedan lejos de las puntas de los dedos, de modo que la mano es más ligera y diestra. Esta arquitectura la usa, por ejemplo, el propio Atlas eléctrico.

La clave del control fino es el control del par motor. La electrónica de control moderna (Field Oriented Control) puede variar la fuerza del motor en el orden de los microsegundos. Gracias a ello el robot nota que un objeto empieza a deslizársele de la mano y aprieta antes de que una persona se diera siquiera cuenta.

Batería: cuánto aguanta

Un humanoide es solo tan útil como tiempo aguante lejos del cargador. La capacidad de la batería se indica en kilovatios-hora (kWh). El Figure 03 tiene una batería de 2,3 kWh de capacidad, parecida a la del Tesla Optimus (2,3 kWh) o la del Figure 02 (2,25 kWh). Para comparar, el más pequeño Unitree H1 se las arregla con 0,864 kWh.

En la práctica eso supone una autonomía de operación de unas dos a cinco horas según la carga. Por eso los fabricantes se centran en el cambio rápido de batería o en el regreso automático del robot a la estación de carga: para un despliegue en una fábrica de tres turnos, la operación continua es fundamental.

Sensores: cómo percibe el robot el mundo

Para que el robot no se caiga por las escaleras ni rompa un vaso, necesita percibir su entorno. Para ello sirven:

Cámaras: normalmente varias unidades para la visión en profundidad (estéreo), complementadas con cámaras de profundidad que miden la distancia.
LiDAR: barrido láser del espacio, crea un mapa 3D preciso del entorno. Lo encontramos, por ejemplo, en el Unitree G1.
IMU (unidad de medición inercial): combinación de giroscopio y acelerómetro. Es el «oído interno» del robot: cientos de veces por segundo mide cuánto está inclinado y a qué velocidad se mueve. Sin la IMU, un humanoide no podría mantenerse en pie.
Sensores de fuerza y táctiles: en las manos y los pies. Le dicen al robot con cuánta fuerza presiona y dónde toca.

Software: de los píxeles al movimiento

El hardware es la mitad de la historia. La otra, y la que más rápido ha cambiado en los últimos dos años, es el software. Podemos dividirlo en tres capas.

1. Percepción

Los datos en bruto de las cámaras y los sensores se convierten en información útil: dónde está la mesa, dónde está la taza, por dónde pasa el camino libre. Aquí trabajan las redes neuronales para el reconocimiento de objetos y la estimación de su posición en el espacio.

2. Planificación y toma de decisiones

El robot debe decidir qué hacer. Antes eran programas escritos a mano: «cuando veas una caja, agáchate, agárrala, levántala». Este enfoque es frágil: basta con que la caja esté colocada de otra manera para que el robot falle.

3. Control del movimiento

Al final, la decisión se convierte en órdenes concretas para decenas de motores, muchas veces por segundo. Mantener el equilibrio al caminar sobre dos piernas es una disciplina científica en sí misma: el robot calcula constantemente adónde desplazar su centro de gravedad para no caerse, y corrige cada microinclinación que le informa la IMU.

La revolución llamada VLA

El verdadero punto de inflexión lo trajeron los llamados modelos VLA, Vision-Language-Action, es decir, visión-lenguaje-acción. Es una inteligencia artificial que une las tres capas en un solo conjunto. Le dices al robot en lenguaje corriente «pon los platos sucios en el fregadero», el modelo mira con las cámaras, comprende la frase y genera directamente los movimientos de las articulaciones. Ningún programador tiene que escribir de antemano el procedimiento para cada situación.

Este enfoque se denomina aprendizaje extremo a extremo: de la entrada (imagen + orden) directamente a la salida (movimiento), aprendido a partir de datos en lugar de mediante programación manual. El buque insignia es el modelo de código abierto NVIDIA Isaac GR00T. Funciona según el principio de dos sistemas: uno «lento» interpreta la escena y la orden, y otro «rápido» genera movimientos fluidos en tiempo real. NVIDIA lo demostró, entre otros, en los robots Fourier GR-1 y NEO Gamma de 1X en tareas domésticas como agarrar y trasladar objetos.

El entrenamiento se realiza a partir de la combinación de tres fuentes de datos: grabaciones desde el punto de vista de una persona (vídeos egocéntricos), registros reales de movimientos de robots y una enorme cantidad de datos sintéticos procedentes de simulaciones por ordenador. Es precisamente la simulación la que permite entrenar miles de horas de «experiencia» en una fracción del tiempo y del coste frente al entrenamiento en el mundo real.

Por qué es tan difícil

En resumen: un humanoide debe resolver a la vez el equilibrio sobre dos piernas, la manipulación fina con las manos, la percepción de un entorno impredecible y la comprensión de órdenes humanas, y todo ello en tiempo real, con una batería limitada y a un precio que tenga sentido comercial. Cada una de estas áreas es de por sí un arduo problema de ingeniería. Que hoy surjan robots que lo logran al menos en parte es el resultado de la confluencia de los avances en motores, baterías, chips e inteligencia artificial. Y es justo esta confluencia la que convierte a los años 2025 y 2026 en un punto de inflexión histórico, pero eso ya es tema para otro artículo.