la forma de interpretarlo es que después del entrenamiento posterior, tus pesos están más o menos equidistantes de todas las tareas que vio durante el preentrenamiento (el modelo ha visto todas las tareas, así que las ha atraído hacia ellas). así que todo lo que hace este método es perturbar los pesos y ver qué perturbaciones acercan la red a pesos específicos de la tarea. es como un lora realmente barato también se conecta a la observación de que el entrenamiento posterior no añade conocimiento, sino que simplemente esculpe la distribución del preentrenamiento.
Yulu Gan
Yulu Gan13 mar, 23:41
Simplemente agregar ruido gaussiano a los LLMs (un paso—sin iteraciones, sin tasa de aprendizaje, sin gradientes) y ensamblarlos puede lograr un rendimiento comparable o incluso mejor que el estándar GRPO/PPO en tareas de razonamiento matemático, codificación, escritura y química. Llamamos a este algoritmo RandOpt. Para verificar que esto no está limitado a modelos específicos, lo probamos en Qwen, Llama, OLMo3 y VLMs. ¿Qué hay detrás de esto? Encontramos que en el vecindario de búsqueda gaussiana alrededor de los LLMs preentrenados, los expertos en diversas tareas están densamente distribuidos — un régimen que denominamos Matorrales Neurales. Documento: Código: Sitio web:
perturbar los pesos es realmente análogo a los despliegues aleatorios a alta temperatura. Creo que esto puede ser iterativo (como grpo) perturbar los pesos con un gran radio -> seleccionar mejores desempeños -> seguir disminuyendo el radio esto *debería* aumentar la precisión de la tarea @yule_gan, ¿lo intentaste?
70