nowe badanie @METR_Evals od @whitfill_parker, @cherylwoooo, nate rush i mnie. (głównie parker!) stwierdzamy, że *połowa* zweryfikowanych rozwiązań SWE-bench z generacji AI Sonnet 3.5-do-4.5 *które są oceniane jako zaliczone* jest odrzucana przez utrzymujących projekt.