L’apprentissage de bout en bout (« end-to-end ») signifie qu’un seul réseau de neurones apprend le chemin direct de l’entrée à la sortie — chez un robot, typiquement de l’image des caméras directement aux commandes des articulations. Entre les deux, il n’y a aucun module programmé à la main du type « reconnais l’objet → planifie la trajectoire → calcule les angles ». Le réseau crée lui-même ces étapes intermédiaires au cours de l’entraînement.
La robotique classique fonctionnait à l’inverse : les ingénieurs assemblaient une chaîne (pipeline) de blocs séparés (perception, planification, commande), chacun réglé à part. C’est lisible et débogable, mais fragile — dans l’environnement imprévisible d’un foyer ou d’un entrepôt, de telles exceptions surgissent en nombre infini. L’approche de bout en bout, au contraire, passe à l’échelle avec les données : plus il y a d’exemples, mieux le réseau généralise à de nouvelles situations.
Le prix à payer est la « boîte noire ». Quand le robot échoue, il est difficile de savoir pourquoi, car la décision est répartie sur des millions de poids. C’est pourquoi, en pratique, on combine souvent l’apprentissage à des couches de sécurité et de commande.
L’exemple le plus connu est Tesla Optimus, qui reprend l’approche de bout en bout du Tesla FSD (le pilote automatique) : un seul réseau associe la perception à l’action et apprend à partir d’un énorme volume de données humaines. Figure partage une philosophie similaire avec son modèle Helix, qui commande directement la moitié supérieure du corps. Ces systèmes sont généralement construits comme des modèles VLA et entraînés par apprentissage par imitation, éventuellement affinés par apprentissage par renforcement. L’approche de bout en bout est aujourd’hui plutôt une direction et une ambition qu’un état achevé — la plupart des robots déployés combinent des composants appris et classiques.