DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

un modelo fuerte puede empeorar en aprender cosas difíciles a medida que se vuelve más seguro.. porque sus respuestas incorrectas se empujan tan bajo que los gradientes básicamente desaparecen wmss invierte el bucle: entrenas el modelo fuerte contra su propio punto de control anterior, más débil, no solo contra sus predicciones actuales el punto de control débil aún asigna una probabilidad no trivial a respuestas plausibles pero incorrectas.. entrenar en esa distribución más suave obliga al modelo fuerte a seguir separando lo correcto de lo casi correcto, en lugar de pulir lo que ya cree el artículo informa de ganancias significativas en matemáticas + codificación, con aumentos más grandes en conjuntos más difíciles.. pero se probó alrededor de 4b a 8b de parámetros, no en escala de frontera (así que no estoy tratando esto como algo resuelto) la implicación poco discutida: cada laboratorio serio ya tiene un cementerio de puntos de control intermedios de ejecuciones pasadas.. si el aprendizaje impulsado por lo débil se mantiene en 70b+, los puntos de control "desperdiciados" se convierten en un recurso de entrenamiento que ya tienes los modelos fuertes se estancan cuando dejan de dudar de sí mismos.. una forma práctica de avanzar podría ser hacer que discutan con su yo pasado 👀 enlace al artículo: arxiv. org/abs/2602.08222

Parte superior

Clasificación

Favoritos