Dos de las tres vulnerabilidades de alta severidad en EVMBench detectadas por AuditAgent. Antes de que empezara cualquier revisión manual. EVMBench es un benchmark estandarizado para la detección de vulnerabilidades de la IA, desarrollado por @OpenAI. Ejecutamos los 40 repositorios. AuditorAgent: 80/120 (67%). Mejor modelo base: 56/120 (47%). No se saltan repositorios, ejecuta en orden. El recuerdo es una dimensión. Evaluamos tanto en función de la memoria como de la precisión, y hemos abierto nuestra metodología de evaluación. Análisis completo a continuación.