← Назад до енциклопедії

Базова модель (foundation model)

Велика модель, попередньо натренована на величезній кількості даних, яка слугує універсальною основою та може бути доналаштована на конкретні завдання робота.

Базова модель (foundation model) — це велика модель машинного навчання, попередньо натренована на величезному й різноманітному обсязі даних так, щоб набути широких «загальних знань», які потім можна доналаштувати (fine-tune) під багато конкретних завдань. Поняття популяризував Stanford у 2021 році; найвідомішими представниками є великі мовні моделі — як та родина, з якої походить і цей асистент. Ключова ідея: замість тренувати нову модель з нуля для кожного завдання будують одну потужну основу та пристосовують її.

У робототехніці базові моделі стали великою темою, адже обіцяють розв’язати хронічну нестачу даних. Робототехнічних даних на порядки менше, ніж тексту й зображень в інтернеті, тож модель, яка вже «розуміє світ» з інтернетних даних, має величезну перевагу — їй не доводиться вчитися з нуля, що таке чашка чи двері. Робототехнічні базові моделі зазвичай мають вигляд VLA моделей, які до зору й мови додають дію.

Флагманським прикладом є відкритий NVIDIA Isaac GR00T N1, представлений як перша відкрита базова модель для людиноподібних роботів — вона «cross-embodiment», тобто спроектована так, щоб працювати на різних тілах роботів, і попередньо натренована на суміші реальних демонстрацій, інтернетних відео та синтетичних даних із симуляції. Figure будує власну модель Helix, що ґрунтується на попередньо натренованій vision-language частині.

Слово «foundation» сьогодні водночас є популярним маркетинговим терміном, тому щодо конкретних продуктів варто бути обачними. Справжню базову модель упізнають за тим, що вона узагальнює на завдання, на які її безпосередньо не тренували — а не за тим, як її називає виробник. Поняття пов’язане з концепцією втіленого ШІ (embodied AI) та моделей світа.

Пов’язані роботи

Пов’язані терміни