Comment fonctionnent les robots humanoïdes

Des moteurs dans les articulations à la batterie et aux capteurs, jusqu’à l’intelligence artificielle qui pilote la marche et les mains. Un guide compréhensible de ce qui se cache à l’intérieur d’un humanoïde moderne.

Un robot humanoïde ressemble au premier coup d’œil à une imitation mécanique de l’être humain. En réalité, il s’agit de l’une des machines les plus exigeantes que les ingénieurs construisent aujourd’hui : il doit garder l’équilibre sur deux jambes, manipuler des objets fragiles et, en même temps, « comprendre » ce que vous attendez de lui. Plongeons à l’intérieur, couche par couche, du métal jusqu’à l’intelligence artificielle.

Squelette et articulations : là où naît le mouvement

À la base de chaque humanoïde se trouve ce qu’on appelle le nombre de degrés de liberté (degrees of freedom, DOF) – c’est-à-dire le nombre d’axes de mouvement indépendants dont dispose le robot. Plus il y a d’articulations, plus le mouvement est agile et humain, mais aussi plus la machine est chère et complexe. Les écarts sont énormes en pratique : un simple robot de recherche comme Unitree G1 possède 23 degrés de liberté, tandis qu’Atlas de Boston Dynamics en compte 56 et que l’expérimental Protoclone de l’entreprise polonaise Clone Robotics en affiche même 200 – car celui-ci imite l’anatomie humaine, muscles et os artificiels compris.

Chaque articulation a besoin d’un entraînement – un actionneur. Et c’est précisément là qu’une révolution silencieuse s’est produite ces dernières années.

Actionneurs : les muscles du robot

Jusqu’à récemment, les robots humanoïdes les plus puissants utilisaient l’hydraulique – la pression d’huile dans des vérins. L’ancienne version hydraulique d’Atlas savait faire des saltos, mais elle était bruyante, chère, lourde et sujette aux fuites d’huile. C’est pourquoi Boston Dynamics a officiellement mis l’Atlas hydraulique à la retraite en 2024 et l’a remplacé par une version entièrement électrique.

Les humanoïdes d’aujourd’hui utilisent donc presque sans exception des actionneurs électriques. Ils existent en deux configurations principales :

Actionneurs rotatifs – combinaison d’un moteur électrique sans balais et d’un réducteur harmonique (strain wave gearing). Celui-ci permet de multiplier énormément le couple dans un boîtier petit et léger. Il convient aux articulations qui tournent principalement : épaules, poignets, hanches.
Actionneurs linéaires à câbles tirés (tendon drive) – ils imitent le principe du tendon humain. Un moteur dans l’avant-bras tire sur un câble qui plie le doigt. L’avantage ? Les moteurs lourds sont loin du bout des doigts, ce qui rend la main plus légère et plus agile. C’est par exemple cette architecture qu’utilise l’Atlas électrique.

La clé d’un contrôle fin est la maîtrise du couple. L’électronique de commande moderne (Field Oriented Control) sait modifier la force du moteur à l’échelle de la microseconde. Grâce à cela, le robot sent qu’un objet commence à glisser de sa main et resserre sa prise avant même qu’un humain ne le remarque.

Batterie : combien de temps tient-il

Un humanoïde n’est utile qu’aussi longtemps qu’il tient loin du chargeur. La capacité de la batterie se mesure en kilowattheures (kWh). Figure 03 dispose d’une batterie d’une capacité de 2,3 kWh, tout comme Tesla Optimus (2,3 kWh) ou Figure 02 (2,25 kWh). À titre de comparaison, le plus petit Unitree H1 se contente de 0,864 kWh.

En pratique, cela représente une durée d’exploitation d’environ deux à cinq heures selon la charge de travail. C’est pourquoi les fabricants misent sur le remplacement rapide de la batterie ou sur le retour automatique du robot à une station de recharge – pour un déploiement en usine en trois équipes, le fonctionnement continu est essentiel.

Capteurs : comment le robot perçoit le monde

Pour ne pas dégringoler d’un escalier ni casser un verre, le robot a besoin de percevoir son environnement. À cela servent :

Caméras – généralement plusieurs unités pour une vision en profondeur (stéréo), complétées de caméras de profondeur qui mesurent la distance.
LiDAR – balayage laser de l’espace, qui crée une carte 3D précise de l’environnement. On le trouve par exemple sur l’Unitree G1.
IMU (centrale inertielle) – combinaison d’un gyroscope et d’un accéléromètre. C’est l’« oreille interne » du robot : des centaines de fois par seconde, elle mesure son inclinaison et sa vitesse de déplacement. Sans IMU, un humanoïde ne saurait pas tenir debout.
Capteurs d’effort et tactiles – dans les mains et les pieds. Ils indiquent au robot la force avec laquelle il appuie et l’endroit où il touche.

Logiciel : des pixels au mouvement

Le matériel n’est que la moitié de l’histoire. L’autre moitié, qui évolue le plus vite depuis deux ans, est le logiciel. On peut le diviser en trois couches.

1. Perception

Les données brutes des caméras et des capteurs se transforment en informations utiles : où est la table, où repose la tasse, par où passe le chemin libre. C’est ici que travaillent les réseaux de neurones pour la reconnaissance des objets et l’estimation de leur position dans l’espace.

2. Planification et décision

Le robot doit décider quoi faire. Auparavant, c’étaient des programmes écrits à la main : « quand tu vois une boîte, baisse-toi, saisis, soulève ». Cette approche est fragile – il suffit que la boîte soit posée autrement, et le robot échoue.

3. Contrôle du mouvement

Enfin, la décision se transforme en commandes concrètes pour des dizaines de moteurs, plusieurs fois par seconde. Le maintien de l’équilibre lors de la marche bipède est une discipline scientifique à part entière – le robot calcule en permanence où déplacer son centre de gravité pour ne pas tomber et corrige chaque micro-inclinaison signalée par l’IMU.

La révolution nommée VLA

Le véritable tournant a été apporté par ce qu’on appelle les modèles VLA – Vision-Language-Action, soit vision-langage-action. C’est une intelligence artificielle qui réunit les trois couches en un seul ensemble. Vous dites au robot, en langage courant, « mets la vaisselle sale dans l’évier », le modèle regarde par les caméras, comprend la phrase et génère directement les mouvements des articulations. Aucun programmeur n’a besoin d’écrire à l’avance la procédure pour chaque situation.

Cette approche est désignée par le terme d’apprentissage de bout en bout – de l’entrée (image + commande) directement à la sortie (mouvement), appris à partir de données plutôt que par programmation manuelle. Le vaisseau amiral est le modèle open source NVIDIA Isaac GR00T. Il fonctionne selon le principe de deux systèmes : l’un « lent » interprète la scène et la commande, l’autre « rapide » génère des mouvements fluides en temps réel. NVIDIA l’a notamment démontré sur les robots Fourier GR-1 et NEO Gamma de 1X lors de tâches domestiques comme la préhension et le déplacement d’objets.

L’entraînement se fait à partir d’une combinaison de trois sources de données : des prises de vue du point de vue humain (vidéos égocentriques), des enregistrements réels de mouvements de robots et une énorme quantité de données synthétiques issues de simulations informatiques. C’est justement la simulation qui permet d’entraîner des milliers d’heures d’« expérience » pour une fraction du temps et des coûts par rapport à un entraînement dans le monde réel.

Pourquoi est-ce si difficile

En résumé : un humanoïde doit résoudre simultanément l’équilibre sur deux jambes, la manipulation fine avec les mains, la perception d’un environnement imprévisible et la compréhension des commandes humaines – et tout cela en temps réel, avec une batterie limitée et à un prix qui ait un sens commercial. Chacun de ces domaines est en soi un problème d’ingénierie ardu. Que naissent aujourd’hui des robots qui y parviennent au moins partiellement est le résultat d’une convergence des progrès dans les moteurs, les batteries, les puces et l’intelligence artificielle. Et c’est précisément cette convergence qui fait des années 2025 et 2026 un tournant historique – mais c’est déjà le sujet d’un autre article.