Catatan penelitian @METR_Evals baru dari @whitfill_parker, @cherylwoooo, Nate Rush, dan saya. (terutama Parker!) kami menemukan bahwa *setengah* dari solusi Terverifikasi SWE-bench dari AI generasi Sonnet 3.5 hingga 4.5 *yang dinilai sebagai lulus* ditolak oleh pengelola proyek.