1/ Tutti stanno correndo per costruire AI che controllano le articolazioni e i muscoli dei robot. Quasi nessuno sta ponendo una domanda diversa: cosa succede quando dai a un agente AI accesso a un robot nello stesso modo in cui accede a un browser web o a un editor di codice, come strumento? Queste sono due architetture molto diverse. Ecco perché entrambe sono importanti:
2/ I VLA e i VLM stanno facendo progressi incredibili nel controllo robotico a basso livello. Visione in, comandi motori in uscita. End-to-end. Ma c'è un altro livello che riceve meno attenzione. È la "orchestrazione dei compiti". Non "muovi il giunto 3 a 45 gradi" ma "vai a controllare se il pacco è arrivato alla porta d'ingresso e fammi sapere cosa vedi". (Pensiero di alto livello) Pianificazione. Contesto. Memoria. Ragionamento multi-step. Decidere quali capacità utilizzare e in quale ordine.
3/ Pensa a come funzionano gli esseri umani. Il tuo cervelletto gestisce l'equilibrio e la coordinazione motoria. Non ci pensi. La tua corteccia prefrontale gestisce la pianificazione, cioè "Devo prendere le mie chiavi, poi chiudere la porta, ma prima controllare se il fornello è spento". L'onda VLA sta "potenzialmente" costruendo cervelletti migliori. Ma un robot ha anche bisogno di qualcosa che possa pianificare, ricordare, fare domande e spiegare cosa sta facendo. Questi non sono approcci in competizione. Sono diversi strati della stessa pila.
4/ Abbiamo sperimentato il collegamento di agenti LLM a veri robot ROS2. Non controllando le articolazioni, ma dando all'agente strumenti per pubblicare argomenti, chiamare servizi, leggere sensori. Ciò che ci ha sorpreso è stato il comportamento emergente. L'agente controlla la telecamera prima di navigare. Monitora la batteria durante il compito e si adatta. Chiede “ci sono due oggetti vicino al divano ... quale?” quando l'istruzione è ambigua. Nessuno ha programmato nulla di tutto ciò. Emergere naturalmente dal ragionamento.
5/ Ecco qualcosa che non ci aspettavamo: Il sistema di tipi di ROS2 si rivela essere accidentalmente leggibile da LLM. Quando l'agente vede “/cmd_vel” (geometry_msgs/msg/Twist) o “/navigate_to_pose” (NavigateToPose), sa già cosa significano. Nessun manifesto. Nessun file di capacità. Basta fornirgli il grafo dei topic live del robot e lui capisce cosa può fare il robot. L'intero ecosistema ROS2 diventa una libreria di strumenti che l'agente può esplorare.
914