Jak fungují humanoidní roboti

Od motorů v kloubech přes baterii a senzory až po umělou inteligenci, která řídí chůzi i ruce. Srozumitelný průvodce tím, co se skrývá uvnitř moderního humanoida.

Humanoidní robot vypadá na první pohled jako mechanická napodobenina člověka. Ve skutečnosti jde o jeden z nejnáročnějších strojů, jaké dnes inženýři staví: musí udržet rovnováhu na dvou nohách, manipulovat křehkými předměty a přitom „chápat”, co po něm chcete. Pojďme se podívat dovnitř, vrstvu po vrstvě, od železa až k umělé inteligenci.

Kostra a klouby: kde se rodí pohyb

Základem každého humanoida je takzvaný počet stupňů volnosti (degrees of freedom, DOF) – tedy kolik nezávislých os pohybu robot má. Čím víc kloubů, tím obratnější a lidštější pohyb, ale také tím dražší a složitější stroj. Rozdíly jsou v praxi obrovské: jednoduchý výzkumný robot Unitree G1 má 23 stupňů volnosti, zatímco Atlas od Boston Dynamics jich má 56 a experimentální Protoclone od polské firmy Clone Robotics se chlubí dokonce 200 – ten totiž napodobuje lidskou anatomii včetně umělých svalů a kostí.

Každý kloub potřebuje pohon – aktuátor. A právě tady proběhla v posledních letech tichá revoluce.

Aktuátory: svaly robota

Donedávna platilo, že nejsilnější humanoidní roboti používali hydrauliku – tlak oleje v pístech. Stará hydraulická verze Atlasu uměla dělat salta, ale byla hlučná, drahá, těžká a náchylná k únikům oleje. Proto Boston Dynamics v roce 2024 hydraulický Atlas oficiálně poslal do důchodu a nahradil ho plně elektrickou verzí.

Dnešní humanoidi tedy téměř bez výjimky používají elektrické aktuátory. Fungují ve dvou hlavních provedeních:

Rotační aktuátory – kombinace bezkartáčového elektromotoru a takzvaného harmonického převodu (strain wave gearing). Ten dokáže obrovsky znásobit točivý moment v malém a lehkém pouzdře. Hodí se pro klouby, které se hlavně otáčejí: ramena, zápěstí, kyčle.
Lineární aktuátory s tahem přes lanka (tendon drive) – napodobují princip lidské šlachy. Motor v předloktí tahá za lanko, které ohýbá prst. Výhoda? Těžké motory jsou daleko od konečků prstů, takže ruka je lehčí a obratnější. Tuto architekturu používá například právě elektrický Atlas.

Klíčem k jemnému ovládání je řízení točivého momentu. Moderní řídicí elektronika (Field Oriented Control) umí měnit sílu motoru v řádu mikrosekund. Díky tomu robot ucítí, že mu předmět začíná klouzat z ruky, a přitlačí dřív, než by si toho člověk vůbec všiml.

Baterie: kolik vydrží

Humanoid je jen tak užitečný, jak dlouho vydrží mimo nabíječku. Kapacita baterie se udává v kilowatthodinách (kWh). Figure 03 má baterii o kapacitě 2,3 kWh, podobně jako Tesla Optimus (2,3 kWh) nebo Figure 02 (2,25 kWh). Pro srovnání, menší Unitree H1 si vystačí s 0,864 kWh.

V praxi to znamená provozní dobu zhruba dvě až pět hodin podle zátěže. Proto se výrobci zaměřují na rychlou výměnu baterie nebo automatické vracení robota do nabíjecí stanice – pro nasazení v továrně na tři směny je nepřetržitý provoz zásadní.

Senzory: jak robot vnímá svět

Aby se robot nezřítil ze schodů a nerozbil sklenici, potřebuje vnímat okolí. K tomu slouží:

Kamery – obvykle více kusů pro hloubkové (stereo) vidění, doplněné o hloubkové kamery, které měří vzdálenost.
LiDAR – laserové snímání prostoru, vytváří přesnou 3D mapu okolí. Najdeme ho třeba u Unitree G1.
IMU (inerciální měřicí jednotka) – kombinace gyroskopu a akcelerometru. To je „vnitřní ucho” robota: stovkykrát za sekundu měří, jak je nakloněný a jak rychle se hýbe. Bez IMU by humanoid nedokázal stát.
Silové a dotykové senzory – v rukou a chodidlech. Říkají robotovi, jak silně tlačí a kde se dotýká.

Software: od pixelů k pohybu

Hardware je polovina příběhu. Tou druhou a v posledních dvou letech rychleji se měnící je software. Můžeme ho rozdělit do tří vrstev.

1. Vnímání (percepce)

Surová data z kamer a senzorů se mění na užitečné informace: kde je stůl, kde leží hrnek, kudy vede volná cesta. Tady pracují neuronové sítě pro rozpoznávání objektů a odhad jejich polohy v prostoru.

2. Plánování a rozhodování

Robot musí rozhodnout co udělat. Dříve to byly ručně napsané programy: „když vidíš krabici, sehni se, uchop, zvedni.” Tento přístup je křehký – stačí, aby krabice ležela jinak, a robot selže.

3. Řízení pohybu

Nakonec se rozhodnutí mění na konkrétní povely pro desítky motorů, mnohokrát za sekundu. Udržení rovnováhy při chůzi po dvou je samostatná vědní disciplína – robot neustále počítá, kam přesunout těžiště, aby nespadl, a koriguje každý mikronáklon, který hlásí IMU.

Revoluce jménem VLA

Skutečný zlom přinesly takzvané VLA modely – Vision-Language-Action, tedy vidění-jazyk-akce. Je to umělá inteligence, která spojuje všechny tři vrstvy do jednoho celku. Robotovi řeknete běžnou řečí „dej špinavé nádobí do dřezu”, model se podívá kamerami, větě porozumí a rovnou vygeneruje pohyby kloubů. Žádný programátor nemusí předem psát postup pro každou situaci.

Tento přístup se označuje jako end-to-end učení – od vstupu (obraz + příkaz) přímo k výstupu (pohyb), naučeno z dat místo ručního programování. Vlajkovou lodí je open-source model NVIDIA Isaac GR00T. Funguje na principu dvou systémů: jeden „pomalý” interpretuje scénu a příkaz, druhý „rychlý” generuje plynulé pohyby v reálném čase. NVIDIA ho demonstrovala mimo jiné na robotech Fourier GR-1 a NEO Gamma od 1X při domácích úkolech jako uchopování a přemisťování předmětů.

Trénink probíhá z kombinace tří zdrojů dat: záběrů z pohledu člověka (egocentrická videa), reálných záznamů pohybů robotů a obrovského množství syntetických dat z počítačových simulací. Právě simulace umožňuje natrénovat tisíce hodin „zkušeností” za zlomek času a nákladů oproti tréninku v reálném světě.

Proč je to tak těžké

Když to shrneme: humanoid musí současně řešit rovnováhu na dvou nohách, jemnou manipulaci rukama, vnímání nepředvídatelného prostředí a porozumění lidským příkazům – a to vše v reálném čase, s omezenou baterií a v ceně, která dává komerční smysl. Každá z těchto oblastí je sama o sobě náročný inženýrský problém. Že dnes vznikají roboti, kteří to zvládají alespoň částečně, je výsledkem souběhu pokroku v motorech, bateriích, čipech i umělé inteligenci. A právě tento souběh dělá z let 2025 a 2026 historický zlom – ale to už je téma na jiný článek.