Як працюють людиноподібні роботи

Від двигунів у суглобах через батарею та сенсори аж до штучного інтелекту, який керує ходою й руками. Зрозумілий путівник тим, що ховається всередині сучасного людиноподібного робота.

Людиноподібний робот на перший погляд виглядає як механічна імітація людини. Насправді ж це одна з найскладніших машин, які сьогодні будують інженери: він має утримати рівновагу на двох ногах, маніпулювати крихкими предметами й при цьому «розуміти», чого ви від нього хочете. Зазирнімо всередину, шар за шаром, від заліза аж до штучного інтелекту.

Каркас і суглоби: де народжується рух

Основою кожного людиноподібного робота є так звана кількість ступенів свободи (degrees of freedom, DOF) — тобто скільки незалежних осей руху має робот. Що більше суглобів, то спритніший і людяніший рух, але й то дорожча та складніша машина. Відмінності на практиці величезні: простий дослідницький робот Unitree G1 має 23 ступені свободи, тоді як Atlas від Boston Dynamics їх має 56, а експериментальний Protoclone від польської компанії Clone Robotics хизується аж 200 — він-бо імітує людську анатомію, включно зі штучними м’язами й кістками.

Кожен суглоб потребує привода — актуатора. І саме тут останніми роками відбулася тиха революція.

Актуатори: м’язи робота

Донедавна вважалося, що найсильніші людиноподібні роботи використовують гідравліку — тиск олії в поршнях. Стара гідравлічна версія Atlas вміла робити сальто, але була шумна, дорога, важка й схильна до витоків олії. Тому Boston Dynamics у 2024 році офіційно відправив гідравлічний Atlas на пенсію й замінив його повністю електричною версією.

Тож сьогоднішні людиноподібні роботи майже без винятку використовують електричні актуатори. Вони працюють у двох основних виконаннях:

Обертові актуатори — комбінація безщіткового електродвигуна й так званого хвильового редуктора (strain wave gearing). Він здатний величезно помножити крутний момент у малому й легкому корпусі. Підходить для суглобів, які переважно обертаються: плечі, зап’ястки, стегна.
Лінійні актуатори з тягою через тросики (tendon drive) — імітують принцип людського сухожилля. Двигун у передпліччі тягне за тросик, який згинає палець. Перевага? Важкі двигуни розташовані далеко від кінчиків пальців, тож рука легша й спритніша. Цю архітектуру використовує, наприклад, саме електричний Atlas.

Ключем до тонкого керування є регулювання крутного моменту. Сучасна керівна електроніка (Field Oriented Control) вміє змінювати силу двигуна в межах мікросекунд. Завдяки цьому робот відчує, що предмет починає вислизати з руки, і дотисне раніше, ніж людина взагалі це помітила б.

Батарея: скільки витримає

Людиноподібний робот настільки корисний, наскільки довго він витримує поза зарядкою. Ємність батареї вказується в кіловат-годинах (kWh). Figure 03 має батарею ємністю 2,3 kWh, подібно до Tesla Optimus (2,3 kWh) чи Figure 02 (2,25 kWh). Для порівняння, менший Unitree H1 обходиться 0,864 kWh.

На практиці це означає час роботи приблизно від двох до п’яти годин залежно від навантаження. Тому виробники зосереджуються на швидкій заміні батареї або автоматичному поверненні робота до зарядної станції — для впровадження на фабриці в три зміни безперервна експлуатація є вирішальною.

Сенсори: як робот сприймає світ

Щоб робот не впав зі сходів і не розбив склянку, він має сприймати оточення. Для цього служать:

Камери — зазвичай кілька штук для глибинного (стерео) зору, доповнені глибинними камерами, які вимірюють відстань.
LiDAR — лазерне сканування простору, створює точну 3D-карту оточення. Знайдемо його, наприклад, у Unitree G1.
IMU (інерціальний вимірювальний модуль) — комбінація гіроскопа й акселерометра. Це «внутрішнє вухо» робота: сотні разів за секунду вимірює, наскільки він нахилений і як швидко рухається. Без IMU людиноподібний робот не зміг би стояти.
Силові та дотикові сенсори — у руках і ступнях. Кажуть роботові, наскільки сильно він тисне й де торкається.

Програмне забезпечення: від пікселів до руху

Апаратне забезпечення — це половина історії. Другою й такою, що останні два роки змінюється швидше, є програмне забезпечення. Ми можемо розділити його на три шари.

1. Сприйняття (перцепція)

Сирі дані з камер і сенсорів перетворюються на корисну інформацію: де стіл, де лежить кухоль, кудою веде вільний шлях. Тут працюють нейронні мережі для розпізнавання об’єктів та оцінки їхнього положення у просторі.

2. Планування та ухвалення рішень

Робот має вирішити, що зробити. Раніше це були написані вручну програми: «коли бачиш коробку, нахилися, схопи, підніми». Цей підхід крихкий — досить, щоб коробка лежала інакше, і робот зазнає невдачі.

3. Керування рухом

Зрештою рішення перетворюється на конкретні команди для десятків двигунів, багато разів за секунду. Утримання рівноваги під час ходи на двох ногах — це окрема наукова дисципліна: робот постійно обчислює, куди перемістити центр ваги, щоб не впасти, і коригує кожен мікронахил, про який повідомляє IMU.

Революція на ім’я VLA

Справжній перелом принесли так звані VLA моделі — Vision-Language-Action, тобто бачення-мова-дія. Це штучний інтелект, який поєднує всі три шари в одне ціле. Роботові ви кажете звичайною мовою «постав брудний посуд у мийку», модель дивиться камерами, розуміє речення й одразу генерує рухи суглобів. Жодному програмісту не потрібно заздалегідь писати процедуру для кожної ситуації.

Цей підхід називають end-to-end навчанням — від входу (зображення + команда) безпосередньо до виходу (рух), навчене з даних замість ручного програмування. Флагманом є відкрита модель NVIDIA Isaac GR00T. Вона працює за принципом двох систем: одна «повільна» інтерпретує сцену й команду, друга «швидка» генерує плавні рухи в реальному часі. NVIDIA продемонструвала її, серед іншого, на роботах Fourier GR-1 і NEO Gamma від 1X під час домашніх завдань, як-от захоплення й переміщення предметів.

Тренування відбувається з комбінації трьох джерел даних: кадрів із погляду людини (егоцентричні відео), реальних записів рухів роботів і величезної кількості синтетичних даних із комп’ютерних симуляцій. Саме симуляція дає змогу натренувати тисячі годин «досвіду» за частку часу й витрат порівняно з тренуванням у реальному світі.

Чому це так важко

Якщо підсумувати: людиноподібний робот має одночасно вирішувати рівновагу на двох ногах, тонку маніпуляцію руками, сприйняття непередбачуваного середовища й розуміння людських команд — і все це в реальному часі, з обмеженою батареєю та за ціною, яка має комерційний сенс. Кожна з цих галузей сама собою є складною інженерною проблемою. Те, що сьогодні з’являються роботи, які з цим справляються принаймні частково, є результатом збігу прогресу в двигунах, батареях, чипах та штучному інтелекті. І саме цей збіг робить із 2025 і 2026 років історичний перелом — але це вже тема для іншої статті.