Un modèle de fondation (foundation model) est un grand modèle d’apprentissage automatique pré-entraîné sur un volume de données énorme et varié, de sorte à acquérir une vaste « connaissance générale » que l’on peut ensuite affiner (fine-tuner) pour de nombreuses tâches concrètes. Le terme a été popularisé par Stanford en 2021 ; ses représentants les plus connus sont les grands modèles de langage, comme la famille dont est issu cet assistant. L’idée clé : au lieu d’entraîner un nouveau modèle à partir de zéro pour chaque tâche, on bâtit une seule base solide et on l’adapte.
En robotique, les modèles de fondation sont devenus un grand sujet, car ils promettent de résoudre le manque chronique de données. Les données robotiques sont d’un ordre de grandeur moins nombreuses que le texte et les images sur internet ; aussi un modèle qui « comprend déjà le monde » grâce aux données d’internet possède-t-il un avantage considérable — il n’a pas à apprendre depuis zéro ce qu’est une tasse ou une porte. Les modèles de fondation robotiques prennent souvent la forme de modèles VLA, qui ajoutent l’action à la vision et au langage.
L’exemple phare est le modèle ouvert NVIDIA Isaac GR00T N1, présenté comme le premier modèle de fondation ouvert pour robots humanoïdes — il est « cross-embodiment », c’est-à-dire conçu pour fonctionner à travers différents corps de robots, et pré-entraîné sur un mélange de démonstrations réelles, de vidéos d’internet et de données synthétiques issues de simulation. Figure construit son propre modèle Helix, qui part d’une partie vision-langage pré-entraînée.
Le mot « fondation » est aujourd’hui aussi un terme marketing populaire ; pour les produits concrets, la prudence est donc de mise. Un véritable modèle de fondation se reconnaît à ce qu’il généralise à des tâches pour lesquelles il n’a pas été directement entraîné — et non à la façon dont le fabricant le nomme. Il est lié au concept d’IA incarnée ainsi qu’aux modèles du monde.