Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
la façon de l'interpréter est qu'après l'entraînement postérieur, vos poids sont en quelque sorte équidistants de toutes les tâches qu'il a vues pendant l'entraînement préalable (le modèle a vu toutes les tâches donc elles l'ont attiré vers elles). donc tout ce que cette méthode fait, c'est perturber les poids et voir quelles perturbations rapprochent le réseau des poids spécifiques à la tâche. c'est comme un lora vraiment bon marché
cela se connecte également à l'observation que l'entraînement postérieur n'ajoute pas de connaissances, mais sculpte simplement la distribution de l'entraînement préalable.

13 mars, 23:41
Ajouter simplement du bruit gaussien aux LLMs (une étape — pas d'itérations, pas de taux d'apprentissage, pas de gradients) et les assembler peut atteindre des performances comparables, voire meilleures que celles des méthodes standard GRPO/PPO sur des tâches de raisonnement mathématique, de codage, d'écriture et de chimie. Nous appelons cet algorithme RandOpt.
Pour vérifier que cela n'est pas limité à des modèles spécifiques, nous l'avons testé sur Qwen, Llama, OLMo3 et VLMs.
Qu'est-ce qui se cache derrière cela ? Nous constatons que dans le voisinage de recherche gaussien autour des LLMs préentraînés, des experts de tâches divers sont densément répartis — un régime que nous appelons les Buissons Neuraux.
Article :
Code :
Site Web :

perturber les poids est vraiment analogue aux déploiements aléatoires à haute température. Je pense que cela peut être itératif (comme grpo)
perturber les poids avec un grand rayon -> sélectionner les meilleurs performeurs -> continuer à diminuer le rayon
cela *devrait* augmenter la précision de la tâche
@yule_gan as-tu essayé cela ?
23
Meilleurs
Classement
Favoris
