nuova nota di ricerca @METR_Evals da @whitfill_parker, @cherylwoooo, nate rush e me. (principalmente parker!) abbiamo scoperto che *la metà* delle soluzioni verificate SWE-bench della generazione AIs da Sonnet 3.5 a 4.5 *che sono valutate come superate* vengono rifiutate dai manutentori del progetto.