1/ Wszyscy ścigają się, aby zbudować AI, które kontroluje stawy i mięśnie robotów. Prawie nikt nie zadaje innego pytania: co się stanie, gdy dasz agentowi AI dostęp do robota w taki sam sposób, w jaki uzyskuje dostęp do przeglądarki internetowej lub edytora kodu, jako narzędzia? To są dwie bardzo różne architektury. Oto dlaczego obie są ważne:
2/ VLAs i VLMs robią niesamowite postępy w niskopoziomowej kontroli robotów. Wizja w, polecenia silnikowe na wyjściu. Od początku do końca. Ale jest jeszcze jedna warstwa, która zyskuje mniej uwagi. To "orchestracja zadań". Nie "przesuń staw 3 do 45 stopni", ale "sprawdź, czy paczka dotarła do drzwi frontowych i daj mi znać, co widzisz". (Myślenie na wysokim poziomie) Planowanie. Kontekst. Pamięć. Rozumowanie wieloetapowe. Decydowanie, które zdolności wykorzystać i w jakiej kolejności.
3/ Pomyśl o tym, jak działają ludzie. Twój móżdżek zajmuje się równowagą i koordynacją ruchową. Nie myślisz o tym. Twój kora przedczołowa zajmuje się planowaniem, tzn. „Muszę wziąć klucze, potem zamknąć drzwi, ale najpierw sprawdzić, czy kuchenka jest wyłączona”. Fala VLA „potencjalnie” buduje lepsze móżdżki. Ale robot potrzebuje również czegoś, co potrafi planować, pamiętać, zadawać pytania i wyjaśniać, co robi. To nie są konkurencyjne podejścia. To różne warstwy tego samego stosu.
4/ Eksperymentowaliśmy z łączeniem agentów LLM z rzeczywistymi robotami ROS2. Nie kontrolując stawów, a raczej dając agentowi narzędzia do publikowania tematów, wywoływania usług, odczytywania czujników. To, co nas zaskoczyło, to pojawiające się zachowanie. Agent sprawdza kamerę przed nawigacją. Monitoruje poziom baterii w trakcie zadania i dostosowuje się. Pyta „są dwa obiekty obok kanapy... który?” gdy instrukcja jest niejednoznaczna. Nikt tego nie zaprogramował. To wynika z rozumowania naturalnie.
5/ Oto coś, czego się nie spodziewaliśmy: System typów ROS2 okazuje się być przypadkowo czytelny dla LLM. Kiedy agent widzi „/cmd_vel” (geometry_msgs/msg/Twist) lub „/navigate_to_pose” (NavigateToPose), już wie, co one oznaczają. Żadnego manifestu. Żadnego pliku możliwości. Po prostu przekazujesz mu żywą grafikę tematów robota, a on sam ustala, co robot potrafi. Cały ekosystem ROS2 staje się biblioteką narzędzi, którą agent może przeglądać.
933