Модель світу (world model) — це внутрішня репрезентація, яку робот (або ШІ-агент) тримає про своє середовище й про те, як на нього реагують його дії. Простіше кажучи: модель світу вміє передбачити „коли я зроблю це, станеться те”. Завдяки цьому система може планувати й пробувати варіанти подумки — у своїй „уяві” — замість того, щоб усе тестувати дорого й ризиковано в реальності.
Концепцію спопуляризувало дослідження приблизно 2018 року, і в останні роки вона переживає ренесанс завдяки генеративному ШІ: модель світу можна тренувати так, щоб вона з відео передбачала майбутні кадри, чим вчиться інтуїтивної фізики — як падають предмети, як капає вода, що здатне встояти. Для втіленого ШІ це вважають одним із бракуючих елементів до справжнього загального інтелекту.
Для гуманоїдів моделі світу мають одразу подвійну користь. По-перше, вони дають змогу планувати наперед — робот може „обміркувати собі” послідовність рухів і вибрати ту, яка веде до мети, подібно до досконаліших варіантів навчання з підкріпленням. По-друге, добра навчена модель світу працює як швидкий симулятор і може допомогти з sim-to-real тим, що генерує реалістичні тренувальні дані.
NVIDIA довкола цього напряму будує свої „world foundation models” (родина Cosmos) для генерування фізично правдоподібних сценаріїв. Багато виробників гуманоїдів говорять про моделі світу як про напрям руху, але справедливо додати, що значною мірою це активне дослідження, а не готова розгорнута технологія. Межа між маркетинговим словом „world model” і справді працездатною прогнозною моделлю буває в пресрелізах розмита — тому ми оминаємо конкретні твердження там, де виробник деталей не оприлюднив.