分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

1/ みんながロボットの関節や筋肉を制御するAIを作るために競い合っています。ほとんど誰も別の疑問を抱いていません。AIエージェントに、ウェブブラウザやコードエディタにアクセスするのと同じように、ツールとしてロボットへのアクセスを与えたらどうなるのか? これらは非常に異なるアーキテクチャです。なぜ両方が重要なのか、こちらがその理由です:

2/VLAやVLMは低レベルロボット制御で驚異的な進歩を遂げています。視界は入り、運動指令は出る。端から端まで。しかし、あまり注目されないもう一つの層があります。それは「タスクオーケストレーション」です。「ジョイントを3度から45度動かす」ではなく、「荷物が玄関に届いたか確認して、何が見えたか教えて」という意味です。(高次の思考) 計画。状況説明。記憶。多段階の推論。どの機能をどの順番で使うかを決めること。

3/ 人間の働き方を考えてみてください。小脳はバランスと運動の協調を担当します。考えない。前頭前野が計画を立てます。つまり「鍵を取ってドアに鍵をかけるが、まずコンロが消えているか確認する」ということです。 VLA波は「潜在的に」より良い小脳を作ろうとしています。しかしロボットには、計画を立て、記憶し、質問し、何をしているのか説明できるものも必要です。これらは競合するアプローチではありません。同じスタックの異なる層です。

4/ 私たちはLLMエージェントを実際のROS2ロボットに接続する実験を行っています。関節を制御するのではなく、エージェントにトピックの公開、サービスへの連絡、センサーの読み取りなどのツールを提供するだけです。驚いたのは、その新たな行動でした。エージェントはナビゲート前にカメラを確認します。作業中にバッテリーを監視し、調整します。「ソファの近くに二つの物がある...どの方ですか?」と指示が曖昧な場合に。誰もプログラムしていません。それは自然と理屈から外れてしまいます。

5/ 予想外のことがあります: ROS2の型システムは偶然にもLLMで読み取れることが判明しました。エージェントが「/cmd_vel」(geometry_msgs/msg/Twist)や「/navigate_to_pose」(NavigateToPose)を見たとき、それらはすでに意味を理解しています。マニフェストもありません。能力ファイルはありません。ロボットのライブトピックグラフを渡すだけで、ロボットが何ができるかを計算してくれます。 ROS2エコシステム全体がエージェントが閲覧できるツールライブラリとなります。

931

トップ

ランキング

お気に入り