Due su tre vulnerabilità ad alta gravità su EVMBench rilevate da AuditAgent. Prima che inizi qualsiasi revisione manuale. EVMBench è un benchmark standardizzato per la rilevazione di vulnerabilità AI, costruito da @OpenAI. Abbiamo eseguito tutte le 40 repo. AuditAgent: 80/120 (67%). Miglior modello di base: 56/120 (47%). Nessuna repo saltata, eseguite in ordine. Il richiamo è una dimensione. Valutiamo sia il richiamo che la precisione, e abbiamo reso open-source la nostra metodologia di valutazione. Analisi completa a seguire.