El modelo fundacional (en inglés foundation model) es un modelo grande de aprendizaje automático preentrenado con un volumen de datos enorme y variado, de modo que adquiere un amplio «conocimiento general» que luego se puede afinar (fine-tune) para muchas tareas concretas. El término lo popularizó Stanford en 2021; sus representantes más conocidos son los grandes modelos de lenguaje, como la familia de la que parte también este asistente. La idea clave: en lugar de entrenar un modelo nuevo desde cero para cada tarea, se construye una base potente y se adapta.
En robótica los modelos fundacionales se han convertido en un gran tema, porque prometen resolver la crónica escasez de datos. Los datos robóticos son varios órdenes de magnitud menos abundantes que el texto y las imágenes de internet, así que un modelo que ya «entiende el mundo» a partir de datos de internet tiene una enorme ventaja: no necesita aprender desde cero qué es una taza o una puerta. Los modelos fundacionales robóticos suelen adoptar la forma de modelos VLA, que añaden la acción a la visión y el lenguaje.
El ejemplo emblemático es el abierto NVIDIA Isaac GR00T N1, presentado como el primer modelo fundacional abierto para robots humanoides: es «cross-embodiment», es decir, diseñado para funcionar en cuerpos de robot distintos, y preentrenado con una mezcla de demostraciones reales, vídeos de internet y datos sintéticos de simulación. Figure construye su propio modelo Helix, que parte de una parte de visión y lenguaje preentrenada.
La palabra «foundation» es hoy a la vez un término de marketing popular, por lo que ante productos concretos conviene la cautela. Un verdadero modelo fundacional se reconoce porque generaliza a tareas para las que no fue entrenado directamente, no por cómo lo llame el fabricante. Se relaciona con el concepto de embodied AI y con los modelos del mundo.