1/ Semua orang berlomba untuk membangun AI yang mengontrol sendi dan otot robot. Hampir tidak ada yang mengajukan pertanyaan yang berbeda: apa yang terjadi ketika Anda memberi agen AI akses ke robot dengan cara yang sama seperti mengakses browser web atau editor kode, sebagai alat? Itu adalah dua arsitektur yang sangat berbeda. Inilah mengapa keduanya penting:
2/ VLA dan VLM membuat kemajuan luar biasa pada kontrol robot tingkat rendah. Penglihatan masuk, perintah motor keluar. Menyeluruh. Tapi ada lapisan lain yang kurang mendapat perhatian. Ini adalah "orkestrasi tugas". Bukan "pindahkan sendi 3 hingga 45 derajat" tetapi "periksa apakah paket tiba di pintu depan dan beri tahu saya apa yang Anda lihat". (Pemikiran tingkat tinggi) Perencanaan. Konteks. Memori. Penalaran multi-langkah. Memutuskan kemampuan mana yang akan digunakan dan dalam urutan apa.
3/ Pikirkan tentang bagaimana manusia bekerja. Otak kecil Anda menangani keseimbangan dan koordinasi motorik. Anda tidak memikirkannya. Korteks prefrontal Anda menangani perencanaan, yaitu "Saya perlu mengambil kunci saya, lalu mengunci pintu, tetapi periksa terlebih dahulu apakah kompor mati". Gelombang VLA "berpotensi" membangun otak kecil yang lebih baik. Tetapi robot juga membutuhkan sesuatu yang dapat merencanakan, mengingat, mengajukan pertanyaan, dan menjelaskan apa yang dilakukannya. Ini bukan pendekatan yang bersaing. Mereka adalah lapisan yang berbeda dari tumpukan yang sama.
4/ Kami telah bereksperimen dengan menghubungkan agen LLM ke robot ROS2 nyata. Tidak mengontrol sambungan, melainkan memberi agen alat untuk menerbitkan topik, layanan panggilan, membaca sensor. Yang mengejutkan kami adalah perilaku yang muncul. Agen memeriksa kamera sebelum menavigasi. Memantau baterai di tengah tugas dan menyesuaikan. Bertanya "ada dua benda di dekat sofa ... yang mana?" ketika instruksinya ambigu. Tidak ada yang memprogram semua itu. Itu keluar dari penalaran secara alami.
5/ Inilah sesuatu yang tidak kami duga: Sistem tipe ROS2 ternyata tidak sengaja dapat dibaca LLM. Ketika agen melihat "/cmd_vel" (geometry_msgs/msg/Twist) atau "/navigate_to_pose" (NavigateToPose), ia sudah tahu apa artinya. Tidak ada manifes. Tidak ada file kemampuan. Anda cukup menyerahkan grafik topik langsung robot dan itu mencari tahu apa yang dapat dilakukan robot. Seluruh ekosistem ROS2 menjadi perpustakaan alat yang dapat dijelajahi oleh agen.
950