Нова @METR_Evals дослідницька нотатка від @whitfill_parker, @cherylwoooo, Нейта Раша і мене. (Головним образом Паркер!) ми виявляємо, що *половина* рішень SWE-bench Verified від ШІ поколінь Sonnet 3.5–4.5 *які оцінюються як прохідні*, відхиляються підтримувачами проєкту.