End-to-End-Lernen („von Ende zu Ende”) bedeutet, dass ein einziges neuronales Netz den direkten Weg vom Eingang zum Ausgang lernt – beim Roboter typischerweise vom Kamerabild unmittelbar zu den Befehlen für die Gelenke. Dazwischen gibt es keine von Hand programmierten Module wie „erkenne das Objekt → plane die Trajektorie → berechne die Winkel”. Diese Zwischenschritte bildet das Netz während des Trainings selbst aus.
Die klassische Robotik funktionierte umgekehrt: Ingenieure setzten eine Pipeline aus getrennten Blöcken zusammen (Wahrnehmung, Planung, Regelung), von denen jeder einzeln abgestimmt wurde. Das ist übersichtlich und gut nachvollziehbar, aber spröde – in der unvorhersehbaren Umgebung eines Haushalts oder Lagers entstehen unendlich viele solcher Ausnahmen. Der End-to-End-Ansatz skaliert dagegen mit den Daten: Je mehr Beispiele, desto besser generalisiert das Netz auf neue Situationen.
Der Preis dafür ist die „Blackbox”. Wenn der Roboter versagt, ist es schwer herauszufinden, warum, denn die Entscheidung ist über Millionen von Gewichten verteilt. Deshalb kombiniert man das Lernen in der Praxis oft mit Sicherheits- und Regelungsschichten.
Das bekannteste Beispiel ist Tesla Optimus, der den End-to-End-Ansatz von Tesla FSD (dem Autopiloten) übernimmt: Ein einziges Netz bildet die Wahrnehmung auf die Aktion ab und lernt aus einer riesigen Menge menschlicher Daten. Eine ähnliche Philosophie verfolgt Figure mit seinem Modell Helix, das die obere Körperhälfte direkt steuert. Solche Systeme sind meist als VLA-Modelle aufgebaut und durch Imitation Learning trainiert, gegebenenfalls per Reinforcement Learning nachjustiert. End-to-End ist heute eher eine Richtung und ein Anspruch als ein fertiger Zustand – die meisten eingesetzten Roboter kombinieren gelernte und klassische Komponenten.