Базова модель (foundation model) — це велика модель машинного навчання, попередньо натренована на величезному й різноманітному обсязі даних так, щоб набути широких «загальних знань», які потім можна доналаштувати (fine-tune) під багато конкретних завдань. Поняття популяризував Stanford у 2021 році; найвідомішими представниками є великі мовні моделі — як та родина, з якої походить і цей асистент. Ключова ідея: замість тренувати нову модель з нуля для кожного завдання будують одну потужну основу та пристосовують її.
У робототехніці базові моделі стали великою темою, адже обіцяють розв’язати хронічну нестачу даних. Робототехнічних даних на порядки менше, ніж тексту й зображень в інтернеті, тож модель, яка вже «розуміє світ» з інтернетних даних, має величезну перевагу — їй не доводиться вчитися з нуля, що таке чашка чи двері. Робототехнічні базові моделі зазвичай мають вигляд VLA моделей, які до зору й мови додають дію.
Флагманським прикладом є відкритий NVIDIA Isaac GR00T N1, представлений як перша відкрита базова модель для людиноподібних роботів — вона «cross-embodiment», тобто спроектована так, щоб працювати на різних тілах роботів, і попередньо натренована на суміші реальних демонстрацій, інтернетних відео та синтетичних даних із симуляції. Figure будує власну модель Helix, що ґрунтується на попередньо натренованій vision-language частині.
Слово «foundation» сьогодні водночас є популярним маркетинговим терміном, тому щодо конкретних продуктів варто бути обачними. Справжню базову модель упізнають за тим, що вона узагальнює на завдання, на які її безпосередньо не тренували — а не за тим, як її називає виробник. Поняття пов’язане з концепцією втіленого ШІ (embodied AI) та моделей світа.