Imitation Learning (Lernen durch Nachahmung)

Der Roboter lernt eine Aufgabe, indem er menschliche Demonstrationen nachahmt – statt ein explizites Programm zu schreiben oder eine Belohnung zu definieren.

Imitation Learning ist eine Familie von Methoden, bei denen der Roboter eine Aufgabe lernt, indem er nachahmt, wie ein Mensch sie ausführt. Statt dass ein Ingenieur ein Programm „wenn … dann …” schreibt oder eine mathematische Belohnung definiert, zeigt man dem Roboter viele Beispiele der korrekten Ausführung, und das Modell lernt daraus, die Wahrnehmung (was es sieht) in die Aktion (wie es sich bewegt) zu übersetzen.

Demonstrationen entstehen am häufigsten durch Teleoperation – ein Operator führt mit dem Roboter die Aufgabe aus, und es werden Paare „Beobachtung → Bewegung” aufgezeichnet. So entsteht ein Datensatz, auf dem das Modell trainiert wird. Die einfachste Variante des Imitation Learning ist das Behavior Cloning, bei dem das Netz schlicht lernt, die aufgezeichneten Aktionen nachzuahmen. Modernere Ansätze erzeugen Aktionen über eine Diffusion Policy, was Situationen besser bewältigt, in denen es mehrere richtige Wege gibt, eine Aufgabe zu erledigen.

Der Hauptvorteil ist, dass es Menschen natürlich fällt, eine Aufgabe vorzuführen, sie aber schwer exakt zu programmieren ist – das ist der Kern des Moravec’schen Paradox. Die Schwäche ist der sogenannte Distribution Shift: Sobald der Roboter in einen Zustand gerät, der in den Daten nicht vorkam (etwa wenn er ein Objekt leicht verfehlt), hat er keinen Anhaltspunkt, und die Fehler können sich aufschaukeln. Deshalb wird Imitation Learning oft mit Reinforcement Learning kombiniert, das die Policy durch Ausprobieren nachjustiert.

Fast alle heutigen Hersteller „lernender” Humanoiden bauen auf Imitation Learning – Figure, Tesla, 1X und andere sammeln menschliche Demonstrationen im großen Stil. Es ist der Motor, der das Daten-Schwungrad der gesamten Branche antreibt.

Imitation Learning (Lernen durch Nachahmung)

Verwandte Roboter

Verwandte Begriffe