El modelo del mundo (world model) es una representación interna que el robot (o un agente de IA) mantiene sobre su entorno y sobre cómo reaccionan a él sus acciones. Dicho de forma sencilla: el modelo del mundo sabe predecir «si hago esto, ocurrirá aquello». Gracias a ello, el sistema puede planificar y probar variantes mentalmente —en su «imaginación»— en lugar de tener que ensayarlo todo de forma cara y arriesgada en la realidad.
El concepto lo popularizó la investigación en torno a 2018 y en los últimos años vive un renacimiento gracias a la IA generativa: un modelo del mundo puede entrenarse para que, a partir de un vídeo, prediga los fotogramas futuros, con lo que aprende la física intuitiva, cómo caen los objetos, cómo gotea el agua, qué resiste de pie. Para la embodied AI se considera una de las piezas que faltan hacia una verdadera inteligencia general.
Para los humanoides, los modelos del mundo tienen una doble utilidad. En primer lugar, permiten la planificación por adelantado: el robot puede «meditar» una secuencia de movimientos y elegir la que lleva al objetivo, de forma parecida a las variantes avanzadas del aprendizaje por refuerzo. En segundo lugar, un buen modelo del mundo aprendido funciona como un simulador rápido y puede ayudar al sim-to-real generando datos de entrenamiento realistas.
NVIDIA construye en torno a esta dirección sus «world foundation models» (la familia Cosmos) para generar escenarios físicamente verosímiles. Muchos fabricantes de humanoides hablan de los modelos del mundo como una orientación, pero es justo añadir que se trata en gran parte de investigación activa, no de una tecnología terminada y desplegada. La frontera entre el término de marketing «world model» y un modelo predictivo realmente funcional suele quedar difusa en las notas de prensa; por eso omitimos afirmaciones concretas allí donde el fabricante no ha revelado los detalles.