nowe badanie @METR_Evals od @whitfill_parker, @cherylwoooo, nate rush i mnie. (głównie parker!)
stwierdzamy, że *połowa* zweryfikowanych rozwiązań SWE-bench z generacji AI Sonnet 3.5-do-4.5 *które są oceniane jako zaliczone* jest odrzucana przez utrzymujących projekt.
Szczerze mówiąc, panel użytkowników o dużej mocy w stylu Consumer Reports może być lepszy niż METR itp. do mierzenia postępów AI, znacznie bardziej odporny na skoki.
Nie chcę brzmieć sceptycznie, jako użytkownik o dużej mocy uważam, że w ciągu ostatnich kilku miesięcy nastąpił niezwykle zauważalny postęp, jeśli to coś znaczy.