Model świata (world model) to wewnętrzna reprezentacja, którą robot (lub agent AI) utrzymuje na temat swojego środowiska i tego, jak reaguje ono na jego akcje. Mówiąc prosto: model świata potrafi przewidzieć „jeśli zrobię to, stanie się tamto”. Dzięki temu system może planować i sprawdzać warianty mentalnie — w swojej „wyobraźni” — zamiast wszystko kosztownie i ryzykownie testować w rzeczywistości.
Koncepcję spopularyzowały badania z okolic roku 2018, a w ostatnich latach przeżywa renesans dzięki generatywnej AI: model świata można trenować tak, by przewidywał przyszłe klatki z wideo, ucząc się w ten sposób intuicyjnej fizyki — jak spadają przedmioty, jak kapie woda, co utrzyma się w pionie. Dla embodied AI jest to uważane za jeden z brakujących elementów na drodze do prawdziwej ogólnej inteligencji.
Dla humanoidów modele świata mają podwójne zastosowanie. Po pierwsze umożliwiają planowanie z wyprzedzeniem — robot może „przemyśleć” sekwencję ruchów i wybrać tę, która prowadzi do celu, podobnie jak zaawansowane warianty uczenia ze wzmocnieniem. Po drugie dobry nauczony model świata działa jak szybki symulator i może wspomagać sim-to-real, generując realistyczne dane treningowe.
NVIDIA buduje wokół tego kierunku swoje „world foundation models” (rodzina Cosmos) służące do generowania fizycznie wiarygodnych scenariuszy. Wielu producentów humanoidów mówi o modelach świata jako o kierunku rozwoju, ale uczciwie trzeba dodać, że to w dużej mierze aktywne badania, a nie gotowa, wdrożona technologia. Granica między marketingowym słowem „world model” a rzeczywiście działającym modelem predykcyjnym bywa w komunikatach prasowych rozmyta — dlatego pomijamy konkretne twierdzenia tam, gdzie producent nie ujawnił szczegółów.