Dos de cada tres vulnerabilidades de alta gravedad en EVMBench detectadas por AuditAgent. Antes de que comience cualquier revisión manual. EVMBench es un benchmark estandarizado para la detección de vulnerabilidades de IA, creado por @OpenAI. Ejecutamos todos los 40 repos. AuditAgent: 80/120 (67%). Mejor modelo base: 56/120 (47%). No se omitieron repos, se ejecutaron en orden. El recall es una dimensión. Evaluamos tanto el recall como la precisión, y hemos hecho pública nuestra metodología de evaluación. Análisis completo a continuación.