новая исследовательская записка от @METR_Evals от @whitfill_parker, @cherylwoooo, nate rush и меня. (в основном паркер!) мы обнаружили, что *половина* решений SWE-bench, проверенных ИИ поколения Sonnet 3.5-to-4.5, *которые оценены как проходящие*, отклоняются поддерживающими проект.