1/ Alle konkurrerer om å bygge AI som kontrollerer robotledd og muskler. Nesten ingen stiller et annet spørsmål: hva skjer når du gir en AI-agent tilgang til en robot på samme måte som den får tilgang til en nettleser eller en kodeeditor, som et verktøy? Det er to veldig forskjellige arkitekturer. Her er grunnen til at begge deler er viktige:
2/ VL-er og VLM-er gjør enorme fremskritt innen lavnivå robotkontroll. Syn inn, motoriske kommandoer ut. Fra ende til ende. Men det er et annet lag som får mindre oppmerksomhet. Det er «oppgaveorkestrering». Ikke «flytt ledd 3 til 45 grader», men «sjekk om pakken har kommet til inngangsdøren og gi meg beskjed om hva du ser». (Tenkning på høyt nivå) Planlegging. Kontekst. Minne. Flertrinns resonnement. Å bestemme hvilke funksjoner som skal brukes og i hvilken rekkefølge.
3/ Tenk på hvordan mennesker fungerer. Lillehjernen din håndterer balanse og motorisk koordinasjon. Du tenker ikke på det. Din prefrontale cortex håndterer planleggingen, altså: «Jeg må hente nøklene mine, så låse døren, men sjekk først om komfyren er av». VLA-bølgen bygger «potensielt» bedre lillehjerner. Men en robot trenger også noe som kan planlegge, huske, stille spørsmål og forklare hva den gjør. Dette er ikke konkurrerende tilnærminger. De er forskjellige lag i samme stakk.
4/ Vi har eksperimentert med å koble LLM-agenter til ekte ROS2-roboter. Ikke å kontrollere ledd, men heller gi agenten verktøy for å publisere temaer, ringe tjenester, lese sensorer. Det som overrasket oss, var den fremvoksende atferden. Agenten sjekker kameraet før han navigerer. Overvåker batteriet midt i oppgaven og justerer. Spør: «Det er to gjenstander nær sofaen ... hvilken?" når instruksjonen er tvetydig. Ingen programmerte noe av det. Det faller naturlig ut av resonnementet.
5/ Her er noe vi ikke forventet: ROS2s typesystem viser seg å være utilsiktet LLM-lesbart. Når agenten ser "/cmd_vel" (geometry_msgs/msg/Twist) eller "/navigate_to_pose" (NavigateToPose), vet den allerede hva de betyr. Ingen manifest. Ingen kapabilitetsfil. Du gir den bare robotens live topic-graf, og den finner ut hva roboten kan gjøre. Hele ROS2-økosystemet blir et verktøybibliotek agenten kan bla gjennom.
962