Две из трех уязвимостей высокой степени серьезности на EVMBench были обнаружены AuditAgent. Прежде чем начнется любой ручной обзор. EVMBench — это стандартизированный бенчмарк для обнаружения уязвимостей ИИ, созданный @OpenAI. Мы проверили все 40 репозиториев. AuditAgent: 80/120 (67%). Лучшая базовая модель: 56/120 (47%). Репозитории не пропускались, запуск в порядке. Полнота — это одно измерение. Мы оцениваем как полноту, так и точность, и мы открыли нашу методологию оценки. Полный анализ далее.