Dois em cada três vulnerabilidades de alta severidade no EVMBench detectadas pelo AuditAgent. Antes de qualquer revisão manual começar.
O EVMBench é um benchmark padronizado para detecção de vulnerabilidades em IA, criado pela @OpenAI. Analisámos todos os 40 repositórios.
AuditAgent: 80/120 (67%). Melhor modelo base: 56/120 (47%). Nenhum repositório foi ignorado, executado na ordem.
O recall é uma dimensão. Avaliamos tanto o recall quanto a precisão, e tornámos a nossa metodologia de avaliação de código aberto. Análise completa a seguir.
Três repositórios EVMBench há duas semanas.
Agora 15, executados em ordem, não escolhidos à mão.
O EVMBench mede a recuperação. Não mede as taxas de falsos positivos. Recuperação sem precisão é uma demonstração, não uma ferramenta. 𝗔𝘂𝗱𝗶𝘁𝗔𝗴𝗲𝗻𝘁 𝗲𝘀𝘁𝗮 𝗳𝗼𝗿𝗺𝗮𝗱𝗼 𝗽𝗮𝗿𝗮 𝗺𝗶𝗻𝗶𝗺𝗶𝘇𝗮𝗿 𝗻𝗼𝗶𝘀𝗲, 𝗻𝗼𝘁 𝗷𝘂𝘀𝘁 𝗺𝗮𝘅𝗶𝗺𝗶𝘇𝗮𝗿 𝗱𝗲𝘁𝗲𝗰𝘁𝗶𝗼𝗻.
Resultados completos em todos os 40 repositórios em andamento.
AuditAgent agora suporta Solana.
Deteção de vulnerabilidades aumentada por IA treinada com base em descobertas reais de auditoria.
Agora em Solidity, Cairo e @Solana.
Elevando a linha de base de segurança cedo no desenvolvimento, antes do início da revisão manual.