Nová @METR_Evals výzkumná poznámka od @whitfill_parker, @cherylwoooo, Natea Rushe a mě. (hlavně Parker!)
zjistili jsme, že *polovina* SWE-bench ověřených řešení z generace AI Sonnet 3.5 až 4.5 *které jsou hodnoceny jako úspěšné* je projektovými správci odmítnuta.
Honestly a Consumer Reports style panel of power users might be better than METR etc. for measuring AI progress, much more robust to spikiness.
Not meant to sound skeptical, as a power user I think there's been extremely noticeable progress over the past few months fwiw.