Embodied AI, auf Deutsch verkörperte Intelligenz, ist die Idee, dass wirklich allgemeine Intelligenz nicht allein durch das Lesen von Text und das Betrachten von Bildern entstehen kann — sie braucht einen Körper, mit dem sie auf die Welt einwirkt, und Sinne, mit denen sie die Folgen ihres Handelns wahrnimmt. Während ein Sprachmodell passiv aus dem Internet lernt, lernt ein verkörperter Agent (Roboter) aktiv: Er versucht etwas zu tun, sieht, was geschehen ist, und passt sein Verhalten entsprechend an. Körper und Umgebung sind hier Teil des Lernens, nicht nur dessen Ergebnis.
Diese Perspektive hat tiefe Wurzeln in den Kognitionswissenschaften und der Robotik. Sie hängt mit dem Moravec-Paradox zusammen: Wir haben festgestellt, dass es leichter ist, einer KI Logik und Schach beizubringen, als ihr die Geschicklichkeit eines Kindes und ein Verständnis der physischen Welt zu vermitteln — gerade weil sich physische Fähigkeiten nicht einfach „lesen” lassen, sondern verkörpert werden müssen.
Humanoide Roboter werden oft als Flaggschiff der Embodied AI beschrieben — der menschliche Körper ist ein universelles Werkzeug für eine von Menschen gestaltete Welt. Die praktische Konsequenz ist das Bestreben, robotische Foundation-Modelle und VLA-Modelle zu bauen, die allgemeines Wissen aus dem Internet mit physischer Erfahrung verbinden. Eine Schlüsselrolle spielen auch Weltmodelle, dank derer sich ein Agent die Folgen von Aktionen im Voraus vorstellen kann.
Firmen wie Figure, Tesla oder 1X gründen ihre Vision ausdrücklich auf Embodied AI — der Humanoid ist für sie „Hardware für eine Intelligenz, die in der physischen Welt lernt”. Es ist gut, Hype von Realität zu unterscheiden: Der Begriff wird auch werblich verwendet. Echter Fortschritt misst sich daran, ob ein Roboter neue physische Aufgaben bewältigt, für die ihn niemand direkt trainiert hat — und darin steht das Feld noch am Anfang.