la façon de l'interpréter est qu'après l'entraînement postérieur, vos poids sont en quelque sorte équidistants de toutes les tâches qu'il a vues pendant l'entraînement préalable (le modèle a vu toutes les tâches donc elles l'ont attiré vers elles). donc tout ce que cette méthode fait, c'est perturber les poids et voir quelles perturbations rapprochent le réseau des poids spécifiques à la tâche. c'est comme un lora vraiment bon marché cela se connecte également à l'observation que l'entraînement postérieur n'ajoute pas de connaissances, mais sculpte simplement la distribution de l'entraînement préalable.
Yulu Gan
Yulu Gan13 mars, 23:41
Ajouter simplement du bruit gaussien aux LLMs (une étape — pas d'itérations, pas de taux d'apprentissage, pas de gradients) et les assembler peut atteindre des performances comparables, voire meilleures que celles des méthodes standard GRPO/PPO sur des tâches de raisonnement mathématique, de codage, d'écriture et de chimie. Nous appelons cet algorithme RandOpt. Pour vérifier que cela n'est pas limité à des modèles spécifiques, nous l'avons testé sur Qwen, Llama, OLMo3 et VLMs. Qu'est-ce qui se cache derrière cela ? Nous constatons que dans le voisinage de recherche gaussien autour des LLMs préentraînés, des experts de tâches divers sont densément répartis — un régime que nous appelons les Buissons Neuraux. Article : Code : Site Web :
perturber les poids est vraiment analogue aux déploiements aléatoires à haute température. Je pense que cela peut être itératif (comme grpo) perturber les poids avec un grand rayon -> sélectionner les meilleurs performeurs -> continuer à diminuer le rayon cela *devrait* augmenter la précision de la tâche @yule_gan as-tu essayé cela ?
23