Jak działają roboty humanoidalne

Od silników w stawach, przez baterię i czujniki, aż po sztuczną inteligencję sterującą chodzeniem i rękami. Przystępny przewodnik po tym, co kryje się wewnątrz nowoczesnego humanoida.

Robot humanoidalny wygląda na pierwszy rzut oka jak mechaniczne odwzorowanie człowieka. W rzeczywistości to jedna z najtrudniejszych maszyn, jakie inżynierowie budują dzisiaj: musi utrzymać równowagę na dwóch nogach, manipulować kruchymi przedmiotami i przy tym „rozumieć”, czego od niego oczekujesz. Zajrzyjmy do środka, warstwa po warstwie, od żelaza po sztuczną inteligencję.

Szkielet i stawy: gdzie rodzi się ruch

Podstawą każdego humanoida jest tak zwana liczba stopni swobody (degrees of freedom, DOF) — czyli ile niezależnych osi ruchu posiada robot. Im więcej stawów, tym bardziej zwinny i ludzki ruch, ale też droższy i bardziej skomplikowany mechanizm. Różnice są w praktyce ogromne: prosty robot badawczy Unitree G1 ma 23 stopnie swobody, podczas gdy Atlas od Boston Dynamics ma ich 56, a eksperymentalny Protoclone od polskiej firmy Clone Robotics szczyci się wręcz 200 — naśladuje bowiem ludzką anatomię wraz ze sztucznymi mięśniami i kośćmi.

Każdy staw potrzebuje napędu — siłownika (aktuatora). I właśnie tutaj w ostatnich latach dokonała się cicha rewolucja.

Siłowniki: mięśnie robota

Jeszcze niedawno obowiązywało przekonanie, że najsilniejsze roboty humanoidalne używają hydrauliki — ciśnienia oleju w tłokach. Stara hydrauliczna wersja Atlasa potrafiła robić salta, ale była głośna, droga, ciężka i podatna na wycieki oleju. Dlatego Boston Dynamics w 2024 roku oficjalnie wysłał hydraulicznego Atlasa na emeryturę i zastąpił go w pełni elektryczną wersją.

Dzisiejsze humanoidy używają zatem niemal bez wyjątku siłowników elektrycznych. Działają w dwóch głównych wykonaniach:

Siłowniki obrotowe — połączenie bezszczotkowego silnika elektrycznego i tak zwanego przekładni harmonicznej (strain wave gearing). Potrafi ona ogromnie zwielokrotnić moment obrotowy w małej i lekkiej obudowie. Nadaje się do stawów, które głównie się obracają: ramiona, nadgarstki, biodra.
Siłowniki liniowe z napędem cięgnowym (tendon drive) — naśladują zasadę ludskiego ścięgna. Silnik w przedramieniu ciągnie za cięgno, które zgina palec. Zaleta? Ciężkie silniki są daleko od końcówek palców, więc dłoń jest lżejsza i zwinniejsza. Tę architekturę stosuje między innymi właśnie elektryczny Atlas.

Kluczem do precyzyjnego sterowania jest regulacja momentu obrotowego. Nowoczesna elektronika sterująca (Field Oriented Control) może zmieniać siłę silnika w zakresie mikrosekund. Dzięki temu robot wyczuwa, że przedmiot zaczyna mu wyślizgiwać się z ręki, i dociska go, zanim człowiek w ogóle by to zauważył.

Bateria: jak długo wytrzyma

Robot humanoidalny jest tylko tak użyteczny, jak długo wytrzyma z dala od ładowarki. Pojemność baterii podaje się w kilowatogodzinach (kWh). Figure 03 ma baterię o pojemności 2,3 kWh, podobnie jak Tesla Optimus (2,3 kWh) czy Figure 02 (2,25 kWh). Dla porównania mniejszy Unitree H1 zadowala się 0,864 kWh.

W praktyce oznacza to czas pracy od około dwóch do pięciu godzin w zależności od obciążenia. Dlatego producenci skupiają się na szybkiej wymianie baterii lub automatycznym powracaniu robota do stacji ładowania — w przypadku wdrożenia w fabryce na trzy zmiany ciągła praca jest sprawą kluczową.

Czujniki: jak robot postrzega świat

Aby robot nie zsunął się ze schodów i nie stłukł szklanki, musi postrzegać otoczenie. Służą do tego:

Kamery — zazwyczaj kilka sztuk dla widzenia głębokiego (stereo), uzupełnione o kamery głębokościowe mierzące odległość.
LiDAR — laserowe skanowanie przestrzeni, tworzy dokładną trójwymiarową mapę otoczenia. Znajdziemy go na przykład w Unitree G1.
IMU (inercyjna jednostka pomiarowa) — połączenie żyroskopu i akcelerometru. To „wewnętrzne ucho” robota: setki razy na sekundę mierzy, jak jest nachylony i jak szybko się porusza. Bez IMU humanoid nie byłby w stanie stać.
Czujniki siły i dotyku — w dłoniach i stopach. Mówią robotowi, jak mocno naciska i gdzie się dotyka.

Oprogramowanie: od pikseli do ruchu

Sprzęt to połowa historii. Drugą — i szybciej zmieniającą się w ciągu ostatnich dwóch lat — jest oprogramowanie. Można je podzielić na trzy warstwy.

1. Percepcja

Surowe dane z kamer i czujników zamieniają się na użyteczne informacje: gdzie jest stół, gdzie leży kubek, którędy prowadzi wolna droga. Tu pracują sieci neuronowe do rozpoznawania obiektów i szacowania ich pozycji w przestrzeni.

2. Planowanie i podejmowanie decyzji

Robot musi zdecydować, co zrobić. Dawniej były to ręcznie pisane programy: „gdy widzisz pudełko, pochyl się, chwyć, podnieś”. To podejście jest kruche — wystarczy, żeby pudełko leżało inaczej, a robot się nie powiedzie.

3. Sterowanie ruchem

Na koniec decyzja zamienia się w konkretne rozkazy dla dziesiątek silników, wielokrotnie na sekundę. Utrzymanie równowagi podczas chodzenia na dwóch nogach to osobna dyscyplina naukowa — robot nieustannie oblicza, gdzie przesunąć środek ciężkości, żeby nie upaść, i koryguje każde mikro-przechylenie sygnalizowane przez IMU.

Rewolucja zwana VLA

Prawdziwy przełom przyniosły tak zwane modele VLA — Vision-Language-Action, czyli widzenie-język-akcja. To sztuczna inteligencja, która łączy wszystkie trzy warstwy w jedną całość. Mówisz robotowi zwykłą mową „odnieś brudne naczynia do zlewu”, model patrzy kamerami, rozumie zdanie i od razu generuje ruchy stawów. Żaden programista nie musi z góry pisać procedury dla każdej sytuacji.

To podejście określa się jako uczenie end-to-end — od wejścia (obraz + polecenie) bezpośrednio do wyjścia (ruch), wyuczone z danych zamiast ręcznego programowania. Flagowym przykładem jest open-source model NVIDIA Isaac GR00T. Działa na zasadzie dwóch systemów: jeden „wolny” interpretuje scenę i polecenie, drugi „szybki” generuje płynne ruchy w czasie rzeczywistym. NVIDIA zademonstrował go między innymi na robotach Fourier GR-1 i NEO Gamma od 1X podczas domowych zadań takich jak chwytanie i przenoszenie przedmiotów.

Trening odbywa się z kombinacji trzech źródeł danych: nagrań z perspektywy człowieka (wideo egocentryczne), rzeczywistych zapisów ruchów robotów i ogromnych ilości syntetycznych danych z symulacji komputerowych. To właśnie symulacja pozwala wytreningować tysiące godzin „doświadczeń” w ułamku czasu i kosztów w porównaniu z treningiem w świecie rzeczywistym.

Dlaczego to takie trudne

Podsumowując: humanoid musi jednocześnie rozwiązywać problem równowagi na dwóch nogach, precyzyjnej manipulacji rękami, percepcji nieprzewidywalnego otoczenia i rozumienia ludzkich poleceń — a wszystko to w czasie rzeczywistym, przy ograniczonej baterii i w cenie, która ma sens komercyjny. Każda z tych dziedzin sama w sobie jest wymagającym problemem inżynierskim. To, że dziś powstają roboty radzące sobie z tym przynajmniej częściowo, jest wynikiem jednoczesnego postępu w silnikach, bateriach, chipach i sztucznej inteligencji. I właśnie ten zbieg sprawia, że lata 2025 i 2026 są historycznym przełomem — ale to już temat na inny artykuł.