Ajouter simplement du bruit gaussien aux LLMs (une étape — pas d'itérations, pas de taux d'apprentissage, pas de gradients) et les assembler peut atteindre des performances comparables, voire meilleures que celles des méthodes standard GRPO/PPO sur des tâches de raisonnement mathématique, de codage, d'écriture et de chimie. Nous appelons cet algorithme RandOpt. Pour vérifier que cela n'est pas limité à des modèles spécifiques, nous l'avons testé sur Qwen, Llama, OLMo3 et VLMs. Qu'est-ce qui se cache derrière cela ? Nous constatons que dans le voisinage de recherche gaussien autour des LLMs préentraînés, des experts de tâches divers sont densément répartis — un régime que nous appelons les Buissons Neuraux. Article : Code : Site Web :