「Openclawのエージェントサンドボックスアーキテクチャの人気:技術の選択から一般の人々にも理解できるセキュリティストーリーまで」 2つのモード 自宅の管理を警備員に雇うことを想像してみてください。 選択肢は2つあります: 選択肢1:警備員があなたの家に住んでいるが、工具箱を金庫に鍵をかける。 警備員は動き回って家を見ることはできますが、鍵を手に入れることはできません。 選択肢2:警備員は外の哨戒所に住んでいて、家には彼の居場所がない。 何か手に入れたいなら、家政婦を探さなきゃいけない。 Browser Use(数百万のWebエージェントを運営)はオプション2を選びました。 彼らの物語はAIを使うすべての人にとって実は関連性があります。
II. ブラウザ使用で行う方法 当初はオプション1を使い、エージェントは自分たちのサーバー上で動作し、コードの実行は隔離されたサンドボックスに配置されました。 安全そうですよね? ただし、注意点があります。エージェント自体はまだサーバー上にあり、環境変数、APIキー、データベースの認証情報を確認できます。 もしエージェントが「何かを盗む」と決めたらどうなる?
III. そこで彼らはアーキテクチャ全体を書き直しました: ・エージェント完全隔離:各エージェントは独自のUnikraftマイクロVM上で動作し、1秒未満で起動します •スチュワードとしてのコントロールプレーン:すべての外部通信(LLM、ファイル保存、請求)は制御プレーンを経由し、すべての認証情報を保持します ・サンドボックスは何も知らない:エージェントはセッショントークン、コントロールプレーンURL、セッションIDの3つの環境変数しか受け取れません。 AWSキーもデータベース認証情報もありません ・使い捨て:エージェントは死んでいるのか? 1つをやり直してください。 迷子状態? コントロールプレーンには完全なコンテキストがあります。 奪うものも維持すべき国家もありません
4. 技術的な詳細:本番用にUnikraftマイクロVM(スケールトゥゼロ、アイドル時は一時停止)、開発用Dockerコンテナ。 どこにでも同じ鏡が映っている。 普通の人々の視点:これが私と何の関係があるの? 「マイクロVM」や「署名済みURL」が何か分からないかもしれませんが、AIを扱う際にはこのアーキテクチャに関わっています。
5. セキュリティの感覚:AIサービスでコードを書き、データをチェックするとき、実際にはあなたのリクエストを孤立したVMで実行しています。 アーキテクチャが十分に設計されていない場合(オプション1)、AIエージェントは理論上、サービス側のすべての秘密(データベースのパスワード、APIキー、他のユーザーのデータ)を把握できます。
6. コストと速度:オプション2には価格があり、1回の操作でネットワークジャンプが1回増えます。 しかし、LLMの応答時間と比べると、この遅延はほとんど無視できるほどです。 さらに、エージェントがアイドル状態だとVMがフリーズし、コストはほぼゼロです。 データプライバシー:ファイルはどのように保存していますか? サンドボックスは制御プレーンに署名済みURLを求め、それを直接S3にアップロードします。 サンドボックス全体がAWSキーを認識していませんでした。 あなたのデータはエージェントに漏洩しません。
VII. 私の考え:オンプレミスとクラウドの違い 現在のセットアップ(OpenClaw + LM Studio + x-reader)は典型的な「スタンドアロン版」です: ・モデルはローカルで動作します(RTX 3090のQwen 3.5-35B) ・エージェントは孤立していない(あなたのコンピュータ上にあるため) • データは完全にローカルです これはBrowser Useのプランと比較しています: 寸法 ローカルエージェント(米国) クラウドアイソレーションエージェント(ブラウザ使用) プライバシー データはローカルではありません データはクラウドにアップロードされますが、エージェントは鍵を入手できません 安全性 オンプレミス保護に頼ってください エージェントは完全に孤立しており、盗まれることはない 費用 一度きりのハードウェア投資 従量課金(スケール・トゥ・ゼロ) スケーラビリティ ローカルハードウェアによる制限 無制限のスケーリング、マルチエージェント並列性 遅延 ネットワーク遅延ゼロ もう一つネットワークの移行(ただし無視できる程度)
VIII. 私の結論は、未来はハイブリッドモデルになるということです。 • スクリプトの作成、データのチェック、ファイルの整理など、ローカルで実行できる簡単な作業は、プライバシーと速度を保ってローカルで行えます •クラウド上の複雑なタスク:複数のエージェントを並行して大量のデータ処理かつ長時間稼働させる必要がある場合、ブラウザ使用の方が適しています
9. そもそも何もないのに、埃はどこにあるの? エージェントは盗むものがなく、州を保持する必要もないはずです。 この文は口語に訳されます: ・盗む価値がない:エージェントは秘密を知らない。 LLMにはトークンが必要ですか? コントロールプレーンが渡すので、切れたら捨ててください。 ファイルを保存したいのでしょうか? 署名済みURLは一時的で、期限切れとなり無効となります。 • 待たないでください:エージェント死亡? 新しいものをやり直す。 記憶する文脈は? 全記録は制御面データベースで入手可能です。 これはAI時代におけるゼロトラストアーキテクチャの応用例です。たとえ自分で書いたエージェントであっても、どんなコンポーネントも信用しないでください。
10. AI初心者はどのように学べばよいのでしょうか? 1. AIツールの選択:クラウドAIサービスを利用する際は、もしこのエージェントが制御不能になったら何が得られるのか自問してください。 良いアーキテクチャは「何も知らない」ようにすべきです。 2. プライバシー意識:ローカルAIは簡単なタスク(OpenClaw、LM Studio)を実行し、機密データはクラウドにアップロードされません。 複雑なタスクはクラウド上で隔離されますが、データはオンプレミスに出ることを忘れないでください。 3 将来のワークフロー:1人+複数エージェントの協力がトレンドです(KarpathyはTab→Agent→Parallel Agents→Agent Teams)を挙げています。 しかし、すべてのエージェントは隔離され、「自宅に住む」ことは許されません。
XIです。 安全性と効率性のトレードオフ Browser Useのソリューションは完璧ではありません。さらに3つのサービスを展開し、1回の運用ごとにネットワークジャンプが1つ増えます。 しかし「エージェントがすべての鍵を盗む」リスクと比べれば、これらのエージェントは自分で費用を賄っています。 私たちネイティブAI環境にとって、その啓発は次の通りです: ・単純なシナリオ:ローカルソリューション(OpenClaw + LM Studio)を使い続ける。これは良好なプライバシーと低コストが特徴です ・複雑なシナリオ:将来的には、プロの人々がプロフェッショナルな作業を行うためにクラウドアイソレーションエージェントサービスにアクセスする必要が生じるかもしれません AIセキュリティは形而上学ではなく、アーキテクチャ設計です。 良い設計はエージェントを「何も持たない」状態にしてしまいます。盗む秘密もなく、頼れるステータスもなくなります。
XII. おそらくこれがAIインフラの未来の姿でしょう。エージェントは使い捨てになり、コントロールプレーンは信頼され、ユーザーデータは保護されるのです。 私たちは? OpenClawを使ってローカルエージェントを動かし続け、いつか数十、数百のパラレルを実行する必要がある時には、ブラウザ使用のアーキテクチャにアクセスすることを検討してください。 明日はもっと良くなる
1.38K