トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1/ みんながロボットの関節や筋肉を制御するAIを作るために競い合っています。ほとんど誰も別の疑問を抱いていません。AIエージェントに、ウェブブラウザやコードエディタにアクセスするのと同じように、ツールとしてロボットへのアクセスを与えたらどうなるのか?
これらは非常に異なるアーキテクチャです。なぜ両方が重要なのか、こちらがその理由です:
2/VLAやVLMは低レベルロボット制御で驚異的な進歩を遂げています。視界は入り、運動指令は出る。端から端まで。
しかし、あまり注目されないもう一つの層があります。
それは「タスクオーケストレーション」です。
「ジョイントを3度から45度動かす」ではなく、「荷物が玄関に届いたか確認して、何が見えたか教えて」という意味です。(高次の思考)
計画。状況説明。記憶。多段階の推論。どの機能をどの順番で使うかを決めること。
3/ 人間の働き方を考えてみてください。
小脳はバランスと運動の協調を担当します。考えない。
前頭前野が計画を立てます。つまり「鍵を取ってドアに鍵をかけるが、まずコンロが消えているか確認する」ということです。
VLA波は「潜在的に」より良い小脳を作ろうとしています。しかしロボットには、計画を立て、記憶し、質問し、何をしているのか説明できるものも必要です。
これらは競合するアプローチではありません。同じスタックの異なる層です。
4/ 私たちはLLMエージェントを実際のROS2ロボットに接続する実験を行っています。関節を制御するのではなく、エージェントにトピックの公開、サービスへの連絡、センサーの読み取りなどのツールを提供するだけです。
驚いたのは、その新たな行動でした。
エージェントはナビゲート前にカメラを確認します。作業中にバッテリーを監視し、調整します。「ソファの近くに二つの物がある...どの方ですか?」と指示が曖昧な場合に。
誰もプログラムしていません。それは自然と理屈から外れてしまいます。
5/ 予想外のことがあります:
ROS2の型システムは偶然にもLLMで読み取れることが判明しました。
エージェントが「/cmd_vel」(geometry_msgs/msg/Twist)や「/navigate_to_pose」(NavigateToPose)を見たとき、それらはすでに意味を理解しています。マニフェストもありません。能力ファイルはありません。
ロボットのライブトピックグラフを渡すだけで、ロボットが何ができるかを計算してくれます。
ROS2エコシステム全体がエージェントが閲覧できるツールライブラリとなります。
931
トップ
ランキング
お気に入り
