Simplemente agregar ruido gaussiano a los LLMs (un paso—sin iteraciones, sin tasa de aprendizaje, sin gradientes) y ensamblarlos puede lograr un rendimiento comparable o incluso mejor que el estándar GRPO/PPO en tareas de razonamiento matemático, codificación, escritura y química. Llamamos a este algoritmo RandOpt. Para verificar que esto no está limitado a modelos específicos, lo probamos en Qwen, Llama, OLMo3 y VLMs. ¿Qué hay detrás de esto? Encontramos que en el vecindario de búsqueda gaussiana alrededor de los LLMs preentrenados, los expertos en diversas tareas están densamente distribuidos — un régimen que denominamos Matorrales Neurales. Documento: Código: Sitio web: