Foundation model (česky základový model) je velký model strojového učení předtrénovaný na obrovském a rozmanitém objemu dat tak, aby získal širokou „obecnou znalost”, kterou pak lze doladit (fine-tunovat) na mnoho konkrétních úkolů. Pojem zpopularizoval Stanford v roce 2021; nejznámějšími zástupci jsou velké jazykové modely jako rodina, ze které vychází i tento asistent. Klíčová myšlenka: místo trénovat nový model od nuly pro každý úkol se postaví jeden silný základ a ten se přizpůsobí.
V robotice se foundation modely staly velkým tématem, protože slibují vyřešit chronický nedostatek dat. Robotických dat je řádově méně než textu a obrázků na internetu, takže model, který už „rozumí světu” z internetových dat, má obrovskou výhodu — nemusí se učit, co je hrnek nebo dveře, od nuly. Robotické foundation modely mívají podobu VLA modelů, které k vidění a jazyku přidávají akci.
Vlajkovým příkladem je otevřený NVIDIA Isaac GR00T N1, prezentovaný jako první otevřený základový model pro humanoidní roboty — je „cross-embodiment”, tedy navržený tak, aby fungoval napříč různými těly robotů, a předtrénovaný na směsi reálných demonstrací, internetových videí a syntetických dat ze simulace. Figure staví vlastní model Helix, který vychází z předtrénované vision-language části.
Slovo „foundation” je dnes zároveň populární marketingový pojem, proto je u konkrétních produktů namístě opatrnost. Skutečný základový model se pozná podle toho, že generalizuje na úkoly, na které nebyl přímo trénován — ne podle toho, jak ho výrobce nazve. Souvisí s konceptem embodied AI i modelů světa.