Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
un modelo fuerte puede empeorar en aprender cosas difíciles a medida que se vuelve más seguro.. porque sus respuestas incorrectas se empujan tan bajo que los gradientes básicamente desaparecen
wmss invierte el bucle: entrenas el modelo fuerte contra su propio punto de control anterior, más débil, no solo contra sus predicciones actuales
el punto de control débil aún asigna una probabilidad no trivial a respuestas plausibles pero incorrectas.. entrenar en esa distribución más suave obliga al modelo fuerte a seguir separando lo correcto de lo casi correcto, en lugar de pulir lo que ya cree
el artículo informa de ganancias significativas en matemáticas + codificación, con aumentos más grandes en conjuntos más difíciles.. pero se probó alrededor de 4b a 8b de parámetros, no en escala de frontera (así que no estoy tratando esto como algo resuelto)
la implicación poco discutida: cada laboratorio serio ya tiene un cementerio de puntos de control intermedios de ejecuciones pasadas.. si el aprendizaje impulsado por lo débil se mantiene en 70b+, los puntos de control "desperdiciados" se convierten en un recurso de entrenamiento que ya tienes
los modelos fuertes se estancan cuando dejan de dudar de sí mismos.. una forma práctica de avanzar podría ser hacer que discutan con su yo pasado 👀
enlace al artículo: arxiv. org/abs/2602.08222

Parte superior
Clasificación
Favoritos
