nouvelle note de recherche de @METR_Evals de @whitfill_parker, @cherylwoooo, nate rush, et moi. (principalement parker!) nous constatons que *la moitié* des solutions vérifiées SWE-bench de la génération d'IA Sonnet 3.5 à 4.5 *qui sont notées comme réussies* sont rejetées par les mainteneurs de projet.