neue Forschungsnotiz von @METR_Evals von @whitfill_parker, @cherylwoooo, nate rush und mir. (hauptsächlich parker!) wir stellen fest, dass *die Hälfte* der SWE-bench verifizierten Lösungen von Sonnet 3.5- bis 4.5-Generationen AIs *die als bestanden bewertet werden* von den Projektverantwortlichen abgelehnt werden.