Dois em cada três vulnerabilidades de alta severidade no EVMBench detectadas pelo AuditAgent. Antes de qualquer revisão manual começar. O EVMBench é um benchmark padronizado para detecção de vulnerabilidades em IA, criado pela @OpenAI. Analisámos todos os 40 repositórios. AuditAgent: 80/120 (67%). Melhor modelo base: 56/120 (47%). Nenhum repositório foi ignorado, executado na ordem. O recall é uma dimensão. Avaliamos tanto o recall quanto a precisão, e tornámos a nossa metodologia de avaliação de código aberto. Análise completa a seguir.