Duas de três vulnerabilidades de alta gravidade no EVMBench detectadas pelo AuditAgent. Antes de qualquer revisão manual começar. EVMBench é um benchmark padronizado para detecção de vulnerabilidades de IA, desenvolvido pela @OpenAI. Rodamos todos os 40 repositórios. AuditAgent: 80/120 (67%). Melhor modelo base: 56/120 (47%). Nenhum repositório pulado, execute na ordem. A recordação é uma dimensão. Avaliamos tanto pela recall quanto pela precisão, e disponibilizamos nossa metodologia de avaliação de código aberto. Análise completa a seguir.