Nota de pesquisa de @METR_Evals de @whitfill_parker, @cherylwoooo, Nate Rush e eu. (principalmente Parker!) descobrimos que *metade* das soluções verificadas de banco de software de IAs de geração Sonnet 3.5 a 4.5 *que são classificadas como aprovadas* são rejeitadas pelos mantenedores do projeto.