nuova nota di ricerca @METR_Evals da @whitfill_parker, @cherylwoooo, nate rush e me. (principalmente parker!)
abbiamo scoperto che *la metà* delle soluzioni verificate SWE-bench della generazione AIs da Sonnet 3.5 a 4.5 *che sono valutate come superate* vengono rifiutate dai manutentori del progetto.
Onestamente, un pannello di utenti esperti in stile Consumer Reports potrebbe essere migliore di METR ecc. per misurare i progressi dell'AI, molto più robusto rispetto alle fluttuazioni.
Non voglio sembrare scettico, ma come utente esperto penso che ci siano stati progressi estremamente evidenti negli ultimi mesi, per quanto ne so.