《Openclaw流ing下Agent 沙箱架构:从技术选择到普通人能看懂的安全故事》 Duas modalidades Imagine que você precisa contratar um segurança para cuidar da sua casa. Você tem duas opções: Opção um: o segurança mora na sua casa, mas mantém a caixa de ferramentas trancada no cofre. O segurança pode se mover e ver sua casa, mas não tem a chave. Opção dois: o segurança mora em uma cabine do lado de fora, e não há nada em casa para ele. Se ele quiser pegar qualquer coisa, precisa pedir ao seu mordomo. A empresa Browser Use (que opera milhões de Web Agents) escolheu a opção dois. A história deles, na verdade, se relaciona com todos que usam AI.
II, Como usar o Browser Inicialmente, eles usaram a opção um: o Agent roda no seu próprio servidor, com a execução do código em uma sandbox isolada. Parece seguro, certo? Mas há um problema: o Agent ainda está no servidor, ele pode ver variáveis de ambiente, chaves de API, credenciais de banco de dados. E se o Agent decidir "roubar algumas coisas"?
Três, Portanto, eles reescreveram toda a arquitetura: • Agente completamente isolado: cada Agente roda na sua própria micro-VM Unikraft, iniciando em menos de um segundo • Plano de controle como mordomo: toda a comunicação externa (chamar LLM, armazenar arquivos, faturamento) passa pelo plano de controle, que detém todas as credenciais • Sandbox sem conhecimento: o Agente recebe apenas três variáveis de ambiente — token de sessão, URL do plano de controle, ID da sessão. Sem chaves da AWS, sem credenciais de banco de dados • Descartabilidade: Agente morreu? Reinicie um. Estado perdido? O plano de controle tem o contexto completo. Não há nada que valha a pena roubar e nenhum estado que precise ser mantido.
Quatro, Detalhes técnicos: micro-VM Unikraft para produção (scale-to-zero, suspenso quando ocioso), contêiner Docker para desenvolvimento. A mesma imagem em todo o lado. Perspectiva de uma pessoa comum: o que isso tem a ver comigo? Você pode não saber o que são "micro-VM" ou "URLs pré-assinadas", mas quando você usa AI, está lidando com essa arquitetura.
Cinco, Sensação de segurança: quando você usa um serviço de IA para escrever código ou pesquisar informações, na verdade, eles estão executando seu pedido em uma VM isolada. Se a arquitetura não for bem projetada (opção um), teoricamente, aquele Agente de IA pode ver todos os segredos do provedor de serviços — senhas de banco de dados, chaves de API, dados de outros usuários.
Seis, Custo e velocidade: A opção dois tem um custo - cada operação envolve um salto adicional na rede. Mas em comparação com o tempo de resposta do LLM, esse pequeno atraso é quase irrelevante. Mais importante ainda, quando o Agent está ocioso, a VM é suspensa, e o custo se aproxima de zero. Privacidade dos dados: Como os seus arquivos são armazenados? O sandbox solicita um URL pré-assinado ao plano de controle e, em seguida, faz o upload diretamente para o S3. Durante todo o processo, o sandbox nunca teve acesso à chave da AWS. Os seus dados não serão vazados para o Agent.
Sete, Minhas reflexões: Local vs Nuvem A minha configuração atual (OpenClaw + LM Studio + x-reader) é um típico "modo offline": • O modelo roda localmente (Qwen3.5-35B na RTX 3090) • O Agente não está isolado (porque está no seu computador) • Dados completamente locais Isso em comparação com a solução de Uso do Navegador: Dimensões Agente único local (nós) Agente isolado na nuvem (Uso do Navegador) Privacidade Dados não saem do local Dados vão para a nuvem, mas o Agente não tem acesso à chave Segurança Depende da proteção local Agente completamente isolado, sem possibilidade de roubo Custo Investimento em hardware único Pagamento por uso (escala para zero) Escalabilidade Limitada pelo hardware local Escalabilidade infinita, múltiplos Agentes em paralelo Latência Zero latência de rede Mais um salto de rede (mas pode ser ignorado)
Oito, O meu julgamento: o futuro será um modo misto. • Tarefas simples executadas localmente: escrever um script, pesquisar informações, organizar arquivos, estas podem ser feitas localmente, com boa privacidade e rapidez. • Tarefas complexas na nuvem: quando é necessário paralelizar vários Agentes, processar grandes volumes de dados e executar por longos períodos, neste caso, uma arquitetura como o Browser Use é mais adequada.
Nove, Originalmente não havia nada, onde poderia haver poeira? O seu Agent não deve ter nada que valha a pena ser roubado, nem qualquer estado que precise ser mantido. Em linguagem simples, isso significa: • Não vale a pena roubar: o Agent não sabe de nenhum segredo. Ele precisa de tokens para ajustar o LLM? Os que são fornecidos pelo plano de controle, usa e descarta. Ele precisa armazenar arquivos? A URL pré-assinada é temporária, expira e se torna inválida. • Não precisa ser mantido: o Agent morreu? Reinicie um novo. O contexto que ele lembra? O banco de dados do plano de controle tem um registro completo. Na verdade, isso é a aplicação da arquitetura de confiança zero na era da IA: não confie em nenhum componente, mesmo que seja o Agent que você mesmo escreveu.
Dez, Como um novato em IA deve aprender? 1. Escolha de ferramentas de IA: ao usar serviços de IA em nuvem, pergunte a si mesmo - se este agente perder o controle, o que ele pode acessar? Uma boa arquitetura deve permitir que ele "não saiba nada". 2. Consciência de privacidade: IA local para tarefas simples (OpenClaw, LM Studio), dados sensíveis não devem ir para a nuvem. Tarefas complexas devem usar soluções de isolamento em nuvem, mas é preciso saber que os dados deixarão o local. 3. Fluxo de trabalho futuro: uma pessoa + múltiplos agentes colaborando é a tendência (Karpathy mencionou Tab→Agente→Agentes Paralelos→Equipes de Agentes). Mas cada agente deve ser isolado, não deve "morar na sua casa".
Onze, A ponderação entre segurança e eficiência A solução de Browser Use não é perfeita — são mais três serviços a serem implementados, e cada operação requer mais um salto na rede. Mas em comparação com o risco de "Agent roubar todas as chaves", esses custos valem a pena. Para nós, que temos uma configuração de IA local, a lição é: • Cenários simples: continuar a usar a solução local (OpenClaw + LM Studio), boa privacidade, baixo custo • Cenários complexos: no futuro, pode ser necessário integrar serviços de Agent isolados na nuvem, permitindo que profissionais façam o que sabem fazer A segurança da IA não é misticismo, é design de arquitetura. Um bom design faz com que o Agent "não tenha nada" — sem segredos para roubar, sem estados para se responsabilizar.
Doze, Esta é provavelmente a aparência da infraestrutura de IA do futuro: os Agentes são descartáveis, o plano de controle é confiável e os dados dos usuários estão protegidos. Quanto a nós? Continuamos a usar o OpenClaw para executar Agentes locais, e quando chegar o dia em que precisarmos de dezenas ou centenas em paralelo, consideraremos integrar uma arquitetura como a do Browser Use. Amanhã será melhor.
1,39K