Wie humanoide Roboter funktionieren

Von den Motoren in den Gelenken über den Akku und die Sensoren bis hin zur künstlichen Intelligenz, die Gang und Hände steuert. Ein verständlicher Wegweiser durch das, was sich im Inneren eines modernen Humanoiden verbirgt.

Ein humanoider Roboter sieht auf den ersten Blick aus wie eine mechanische Nachbildung des Menschen. In Wirklichkeit handelt es sich um eine der anspruchsvollsten Maschinen, die Ingenieure heute bauen: Sie muss auf zwei Beinen die Balance halten, zerbrechliche Gegenstände handhaben und dabei „verstehen”, was man von ihr will. Schauen wir uns das Innere an, Schicht für Schicht, vom Eisen bis zur künstlichen Intelligenz.

Skelett und Gelenke: wo die Bewegung entsteht

Die Grundlage jedes Humanoiden ist die sogenannte Zahl der Freiheitsgrade (degrees of freedom, DOF) – also wie viele unabhängige Bewegungsachsen der Roboter hat. Je mehr Gelenke, desto geschickter und menschenähnlicher die Bewegung, aber auch desto teurer und komplexer die Maschine. Die Unterschiede sind in der Praxis riesig: Der einfache Forschungsroboter Unitree G1 hat 23 Freiheitsgrade, während Atlas von Boston Dynamics deren 56 hat und der experimentelle Protoclone der polnischen Firma Clone Robotics sich sogar mit 200 brüstet – er bildet nämlich die menschliche Anatomie samt künstlicher Muskeln und Knochen nach.

Jedes Gelenk braucht einen Antrieb – einen Aktuator. Und genau hier hat sich in den vergangenen Jahren eine stille Revolution vollzogen.

Aktuatoren: die Muskeln des Roboters

Bis vor Kurzem galt, dass die stärksten humanoiden Roboter Hydraulik verwendeten – den Öldruck in Kolben. Die alte hydraulische Version des Atlas konnte Saltos machen, war aber laut, teuer, schwer und anfällig für Ölaustritte. Deshalb schickte Boston Dynamics den hydraulischen Atlas 2024 offiziell in den Ruhestand und ersetzte ihn durch eine vollständig elektrische Version.

Heutige Humanoiden verwenden also fast ausnahmslos elektrische Aktuatoren. Sie funktionieren in zwei Hauptausführungen:

Rotationsaktuatoren – die Kombination aus einem bürstenlosen Elektromotor und einem sogenannten harmonischen Getriebe (strain wave gearing). Dieses kann das Drehmoment in einem kleinen und leichten Gehäuse enorm vervielfachen. Es eignet sich für Gelenke, die sich hauptsächlich drehen: Schultern, Handgelenke, Hüften.
Lineare Aktuatoren mit Zug über Seilzüge (tendon drive) – sie ahmen das Prinzip der menschlichen Sehne nach. Ein Motor im Unterarm zieht an einem Seilzug, der den Finger beugt. Der Vorteil? Die schweren Motoren sind weit von den Fingerspitzen entfernt, sodass die Hand leichter und geschickter ist. Diese Architektur verwendet zum Beispiel gerade der elektrische Atlas.

Der Schlüssel zur feinen Steuerung ist die Regelung des Drehmoments. Moderne Regelelektronik (Field Oriented Control) kann die Kraft des Motors im Bereich von Mikrosekunden ändern. Dadurch spürt der Roboter, dass ihm ein Gegenstand aus der Hand zu rutschen beginnt, und drückt nach, bevor ein Mensch es überhaupt bemerken würde.

Akku: wie lange er durchhält

Ein Humanoid ist nur so nützlich, wie lange er fern von der Ladestation durchhält. Die Kapazität des Akkus wird in Kilowattstunden (kWh) angegeben. Figure 03 hat einen Akku mit einer Kapazität von 2,3 kWh, ähnlich wie Tesla Optimus (2,3 kWh) oder Figure 02 (2,25 kWh). Zum Vergleich: Der kleinere Unitree H1 kommt mit 0,864 kWh aus.

In der Praxis bedeutet das eine Betriebsdauer von etwa zwei bis fünf Stunden je nach Belastung. Deshalb konzentrieren sich die Hersteller auf den schnellen Wechsel des Akkus oder die automatische Rückkehr des Roboters in die Ladestation – für den Einsatz in einer Fabrik mit drei Schichten ist der ununterbrochene Betrieb entscheidend.

Sensoren: wie der Roboter die Welt wahrnimmt

Damit der Roboter nicht die Treppe hinunterstürzt und kein Glas zerbricht, muss er seine Umgebung wahrnehmen. Dazu dienen:

Kameras – meist mehrere Stück für das räumliche (Stereo-)Sehen, ergänzt um Tiefenkameras, die den Abstand messen.
LiDAR – die Lasererfassung des Raums, erstellt eine präzise 3D-Karte der Umgebung. Wir finden es etwa beim Unitree G1.
IMU (inertiale Messeinheit) – die Kombination aus Gyroskop und Beschleunigungssensor. Das ist das „Innenohr” des Roboters: Hunderte Male pro Sekunde misst es, wie stark er geneigt ist und wie schnell er sich bewegt. Ohne IMU könnte ein Humanoid nicht stehen.
Kraft- und Tastsensoren – in den Händen und Fußsohlen. Sie sagen dem Roboter, wie stark er drückt und wo er etwas berührt.

Software: von Pixeln zur Bewegung

Die Hardware ist die halbe Geschichte. Die andere und in den letzten zwei Jahren sich schneller wandelnde ist die Software. Wir können sie in drei Schichten aufteilen.

1. Wahrnehmung (Perzeption)

Die Rohdaten aus Kameras und Sensoren werden in nützliche Informationen umgewandelt: wo der Tisch ist, wo die Tasse liegt, wo der freie Weg verläuft. Hier arbeiten neuronale Netze zur Objekterkennung und zur Schätzung von deren Position im Raum.

2. Planung und Entscheidung

Der Roboter muss entscheiden, was er tun soll. Früher waren das von Hand geschriebene Programme: „wenn du eine Kiste siehst, beuge dich, greife zu, hebe an.” Dieser Ansatz ist fragil – es reicht, dass die Kiste anders liegt, und der Roboter scheitert.

3. Bewegungssteuerung

Schließlich wird die Entscheidung in konkrete Befehle für Dutzende Motoren umgewandelt, viele Male pro Sekunde. Das Halten der Balance beim Gehen auf zwei Beinen ist eine eigene wissenschaftliche Disziplin – der Roboter berechnet ununterbrochen, wohin er den Schwerpunkt verlagern muss, um nicht zu fallen, und korrigiert jede Mikroneigung, die die IMU meldet.

Revolution namens VLA

Den eigentlichen Durchbruch brachten die sogenannten VLA-Modelle – Vision-Language-Action, also Sehen-Sprache-Handlung. Es ist eine künstliche Intelligenz, die alle drei Schichten zu einem Ganzen verbindet. Sie sagen dem Roboter in normaler Sprache „stell das schmutzige Geschirr in die Spüle”, das Modell schaut durch die Kameras, versteht den Satz und erzeugt direkt die Bewegungen der Gelenke. Kein Programmierer muss im Voraus für jede Situation einen Ablauf schreiben.

Dieser Ansatz wird als End-to-End-Lernen bezeichnet – vom Eingang (Bild + Befehl) direkt zum Ausgang (Bewegung), gelernt aus Daten statt aus manueller Programmierung. Das Flaggschiff ist das Open-Source-Modell NVIDIA Isaac GR00T. Es funktioniert nach dem Prinzip zweier Systeme: Eines, das „langsame”, interpretiert die Szene und den Befehl, das andere, das „schnelle”, erzeugt flüssige Bewegungen in Echtzeit. NVIDIA demonstrierte es unter anderem an den Robotern Fourier GR-1 und NEO Gamma von 1X bei häuslichen Aufgaben wie dem Greifen und Umsetzen von Gegenständen.

Das Training erfolgt aus der Kombination dreier Datenquellen: Aufnahmen aus der Perspektive des Menschen (egozentrische Videos), realer Aufzeichnungen von Roboterbewegungen und einer riesigen Menge synthetischer Daten aus Computersimulationen. Gerade die Simulation ermöglicht es, Tausende Stunden „Erfahrung” in einem Bruchteil der Zeit und der Kosten gegenüber dem Training in der realen Welt anzulernen.

Warum das so schwer ist

Fassen wir zusammen: Ein Humanoid muss gleichzeitig die Balance auf zwei Beinen, die feine Manipulation mit den Händen, die Wahrnehmung einer unvorhersehbaren Umgebung und das Verstehen menschlicher Befehle bewältigen – und das alles in Echtzeit, mit begrenztem Akku und zu einem Preis, der kommerziell Sinn ergibt. Jeder dieser Bereiche ist für sich genommen ein anspruchsvolles Ingenieurproblem. Dass heute Roboter entstehen, die das zumindest teilweise bewältigen, ist das Ergebnis eines Zusammentreffens von Fortschritt bei Motoren, Akkus, Chips und künstlicher Intelligenz. Und genau dieses Zusammentreffen macht aus den Jahren 2025 und 2026 einen historischen Wendepunkt – aber das ist schon ein Thema für einen anderen Artikel.