Un modelo fuerte puede ser peor aprendiendo cosas difíciles a medida que gana confianza... Como sus respuestas incorrectas se empujan tan abajo que los gradientes básicamente desaparecen WMSS da la vuelta al ciclo: entrenas el modelo fuerte contra su propio punto de control anterior y más débil, no solo contra sus predicciones actuales El punto de control débil sigue asignando probabilidades no triviales a respuestas plausibles pero incorrectas... El entrenamiento en esa distribución más suave obliga al modelo fuerte a seguir separando lo correcto de lo casi correcto, en lugar de pulir lo que ya cree El artículo informa de avances significativos en matemáticas + codificación, con elevaciones mayores en series más difíciles... Pero se probó en torno a parámetros de 4b a 8b, no en escala de frontera (así que no lo trato como algo resuelto). La implicación poco comentada: todos los laboratorios serios ya tienen un cementerio de puntos de control intermedios de misiones anteriores... Si el aprendizaje basado en débiles se mantiene en 70B+, los puntos de control "desperdiciados" se convierten en un recurso de entrenamiento que ya tienes Los modelos fuertes se estancan cuando dejan de dudar de sí mismos... Una forma práctica de avanzar podría ser hacer que discutan con su yo 👀 pasado Enlace al artículo: arxiv. org/abs/2602.08222