To av tre sårbarheter med høy alvorlighetsgrad på EVMBench oppdaget av AuditAgent. Før noen manuell gjennomgang startet. EVMBench er en standardisert benchmark for AI-sårbarhetsdeteksjon, bygget av @OpenAI. Vi kjørte alle 40 repos. AuditAgent: 80/120 (67%). Beste basismodell: 56/120 (47 %). Ingen repos hoppet over, kjør i rekkefølge. Gjenkalling er én dimensjon. Vi evaluerer både mot gjenkalling og presisjon, og vi har åpnet vår evalueringsmetodikk. Full analyse neste.