nova nota de pesquisa @METR_Evals de @whitfill_parker, @cherylwoooo, nate rush e eu. (principalmente o parker!) descobrimos que *metade* das soluções verificadas do SWE-bench da geração de AIs Sonnet 3.5 para 4.5 *que são classificadas como aprovadas* são rejeitadas pelos mantenedores do projeto.