Nota de investigación de @METR_Evals de @whitfill_parker, @cherylwoooo, Nate Rush y mía. (¡Principalmente Parker!) encontramos que *la mitad* de las soluciones verificadas en banco de SWE de IAs de generación Sonnet 3.5 a 4.5 *que se califican como aprobadas* son rechazadas por los mantenedores del proyecto.