Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
la forma de interpretarlo es que después del entrenamiento posterior, tus pesos están más o menos equidistantes de todas las tareas que vio durante el preentrenamiento (el modelo ha visto todas las tareas, así que las ha atraído hacia ellas). así que todo lo que hace este método es perturbar los pesos y ver qué perturbaciones acercan la red a pesos específicos de la tarea. es como un lora realmente barato
también se conecta a la observación de que el entrenamiento posterior no añade conocimiento, sino que simplemente esculpe la distribución del preentrenamiento.

13 mar, 23:41
Simplemente agregar ruido gaussiano a los LLMs (un paso—sin iteraciones, sin tasa de aprendizaje, sin gradientes) y ensamblarlos puede lograr un rendimiento comparable o incluso mejor que el estándar GRPO/PPO en tareas de razonamiento matemático, codificación, escritura y química. Llamamos a este algoritmo RandOpt.
Para verificar que esto no está limitado a modelos específicos, lo probamos en Qwen, Llama, OLMo3 y VLMs.
¿Qué hay detrás de esto? Encontramos que en el vecindario de búsqueda gaussiana alrededor de los LLMs preentrenados, los expertos en diversas tareas están densamente distribuidos — un régimen que denominamos Matorrales Neurales.
Documento:
Código:
Sitio web:

perturbar los pesos es realmente análogo a los despliegues aleatorios a alta temperatura. Creo que esto puede ser iterativo (como grpo)
perturbar los pesos con un gran radio -> seleccionar mejores desempeños -> seguir disminuyendo el radio
esto *debería* aumentar la precisión de la tarea
@yule_gan, ¿lo intentaste?
70
Parte superior
Clasificación
Favoritos
