Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1/ Všichni závodí s tím, kdo bude stavět AI, která ovládá robotické klouby a svaly. Téměř nikdo se neptá na jinou otázku: co se stane, když dáte AI agentovi přístup k robotovi stejným způsobem, jako k webovému prohlížeči nebo editoru kódu, jako k nástroji?
To jsou dvě velmi odlišné architektury. Tady je důvod, proč jsou oba důležité:
2/ VLA a VLM dělají neuvěřitelný pokrok v řízení nízkoúrovňových robotů. Vision dovnitř, motorické příkazy ven. Od začátku do konce.
Ale je tu ještě jedna vrstva, která přitahuje méně pozornosti.
Je to "orchestrace úkolů".
Ne "posuňte kloub o 3 na 45 stupňů", ale "jděte zkontrolovat, jestli balík dorazil ke vchodovým dveřím, a dejte mi vědět, co uvidíte". (Myšlení na vyšší úrovni)
Plánování. Kontext. Paměť. Vícestupňové uvažování. Rozhodování, které schopnosti použít a v jakém pořadí.
3/ Zamyslete se nad tím, jak fungují lidé.
Mozeček se stará o rovnováhu a motorickou koordinaci. Nepřemýšlíš o tom.
Plánování zajišťuje vaše prefrontální kůra, tedy "Musím si vzít klíče, pak zamknout dveře, ale nejdřív zkontroluj, jestli jsou sporáky vypnuté."
Vlna VLA "potenciálně" vytváří lepší mozeček. Ale robot také potřebuje něco, co umí plánovat, pamatovat si, klást otázky a vysvětlovat, co dělá.
Nejde o konkurenční přístupy. Jsou to různé vrstvy stejné vrstvy.
4/ Experimentujeme s propojením LLM agentů s opravdovými ROS2 roboty. Nejde o ovládání kloubů, ale o to, že agentovi dávají nástroje k publikování témat, volání službám, čtení senzorů.
Co nás překvapilo, bylo to emergentní chování.
Agent zkontroluje kameru, než se vydá do navigace. Monitoruje baterii během práce a upravuje ji. Ptá se: "Jsou tam dva předměty u gauče ... které?" když je instrukce nejasná.
Nikdo nic z toho neprogramoval. Přirozeně to vypadá z logiky.
5/ Tady je něco, co jsme nečekali:
Typový systém ROS2 se ukáže být omylem čitelný pomocí LLM.
Když agent vidí "/cmd_vel" (geometry_msgs/msg/Twist) nebo "/navigate_to_pose" (NavigateToPose), už ví, co to znamená. Žádný manifest. Žádný soubor schopností.
Stačí mu dát graf živého tématu robota a on zjistí, co robot dokáže.
Celý ekosystém ROS2 se stává knihovnou nástrojů, kterou může agent procházet.
952
Top
Hodnocení
Oblíbené
