Ein Foundation Model (deutsch Basismodell) ist ein großes Modell des maschinellen Lernens, das auf einer riesigen und vielfältigen Datenmenge vortrainiert wurde, sodass es ein breites „Allgemeinwissen” erwirbt, das sich anschließend auf viele konkrete Aufgaben feinabstimmen (fine-tunen) lässt. Der Begriff wurde 2021 von Stanford geprägt; die bekanntesten Vertreter sind große Sprachmodelle wie die Familie, aus der auch dieser Assistent stammt. Die zentrale Idee: Statt für jede Aufgabe ein neues Modell von Grund auf zu trainieren, baut man eine starke Grundlage und passt diese an.
In der Robotik sind Foundation Models zu einem großen Thema geworden, weil sie versprechen, den chronischen Datenmangel zu lösen. Von Roboterdaten gibt es um Größenordnungen weniger als von Texten und Bildern im Internet, daher hat ein Modell, das die Welt bereits aus Internetdaten „versteht”, einen enormen Vorteil – es muss nicht von Null lernen, was eine Tasse oder eine Tür ist. Roboter-Foundation-Models haben meist die Form von VLA-Modellen, die zum Sehen und zur Sprache noch die Aktion hinzufügen.
Das Vorzeigebeispiel ist das offene NVIDIA Isaac GR00T N1, präsentiert als erstes offenes Basismodell für humanoide Roboter – es ist „cross-embodiment”, also so konzipiert, dass es über unterschiedliche Roboterkörper hinweg funktioniert, und auf einer Mischung aus realen Demonstrationen, Internetvideos und synthetischen Daten aus der Simulation vortrainiert. Figure baut sein eigenes Modell Helix auf, das von einem vortrainierten Vision-Language-Teil ausgeht.
Das Wort „Foundation” ist heute zugleich ein beliebter Marketingbegriff, weshalb bei konkreten Produkten Vorsicht angebracht ist. Ein echtes Basismodell erkennt man daran, dass es auf Aufgaben generalisiert, für die es nicht direkt trainiert wurde – und nicht daran, wie der Hersteller es nennt. Es hängt mit dem Konzept der Embodied AI und der Weltmodelle zusammen.