Ein Weltmodell (World Model) ist eine interne Repräsentation, die ein Roboter (oder ein KI-Agent) über seine Umgebung und darüber hält, wie diese auf seine Aktionen reagiert. Einfach gesagt: Ein Weltmodell kann vorhersagen, „wenn ich dies tue, geschieht jenes”. Dadurch kann das System Varianten mental — in seiner „Vorstellung” — planen und ausprobieren, anstatt alles teuer und riskant in der Realität testen zu müssen.
Den Begriff popularisierte die Forschung um das Jahr 2018, und in den letzten Jahren erlebt er dank generativer KI eine Renaissance: Ein Weltmodell lässt sich so trainieren, dass es aus einem Video künftige Einzelbilder vorhersagt, wodurch es intuitive Physik lernt — wie Gegenstände fallen, wie Wasser tropft, was stehen bleibt. Für die Embodied AI gilt es als eines der fehlenden Teile auf dem Weg zu echter allgemeiner Intelligenz.
Für Humanoiden haben Weltmodelle gleich einen doppelten Nutzen. Erstens ermöglichen sie die Planung im Voraus — der Roboter kann „sich eine Abfolge von Bewegungen überlegen” und diejenige auswählen, die zum Ziel führt, ähnlich wie fortgeschrittene Varianten des Reinforcement Learning. Zweitens funktioniert ein gut erlerntes Weltmodell als schneller Simulator und kann bei Sim-to-real helfen, indem es realistische Trainingsdaten erzeugt.
NVIDIA baut rund um diese Richtung seine „World Foundation Models” (Familie Cosmos) zur Erzeugung physikalisch plausibler Szenarien auf. Viele Hersteller von Humanoiden sprechen über Weltmodelle als Zielrichtung, aber es ist fair zu ergänzen, dass es sich größtenteils um aktive Forschung handelt, nicht um eine fertig eingesetzte Technologie. Die Grenze zwischen dem Marketingbegriff „World Model” und einem tatsächlich funktionierenden prädiktiven Modell ist in Pressemitteilungen oft verschwommen — deshalb lassen wir konkrete Behauptungen dort weg, wo der Hersteller die Details nicht veröffentlicht hat.