neue Forschungsnotiz von @METR_Evals von @whitfill_parker, @cherylwoooo, nate rush und mir. (hauptsächlich parker!)
wir stellen fest, dass *die Hälfte* der SWE-bench verifizierten Lösungen von Sonnet 3.5- bis 4.5-Generationen AIs *die als bestanden bewertet werden* von den Projektverantwortlichen abgelehnt werden.
Ehrlich gesagt könnte ein Panel von Power-Usern im Stil von Consumer Reports besser sein als METR usw. zur Messung des Fortschritts von KI, da es viel robuster gegenüber Schwankungen ist.
Das soll nicht skeptisch klingen, als Power-User denke ich, dass es in den letzten Monaten äußerst bemerkenswerte Fortschritte gegeben hat, wenn das etwas wert ist.