nueva nota de investigación de @METR_Evals de @whitfill_parker, @cherylwoooo, nate rush y yo. (¡principalmente parker!) encontramos que *la mitad* de las soluciones verificadas de SWE-bench de las IA de la generación de Sonnet 3.5 a 4.5 *que son calificadas como aprobadas* son rechazadas por los mantenedores del proyecto.