DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

la façon de l'interpréter est qu'après l'entraînement postérieur, vos poids sont en quelque sorte équidistants de toutes les tâches qu'il a vues pendant l'entraînement préalable (le modèle a vu toutes les tâches donc elles l'ont attiré vers elles). donc tout ce que cette méthode fait, c'est perturber les poids et voir quelles perturbations rapprochent le réseau des poids spécifiques à la tâche. c'est comme un lora vraiment bon marché cela se connecte également à l'observation que l'entraînement postérieur n'ajoute pas de connaissances, mais sculpte simplement la distribution de l'entraînement préalable.

perturber les poids est vraiment analogue aux déploiements aléatoires à haute température. Je pense que cela peut être itératif (comme grpo) perturber les poids avec un grand rayon -> sélectionner les meilleurs performeurs -> continuer à diminuer le rayon cela *devrait* augmenter la précision de la tâche @yule_gan as-tu essayé cela ?

23

Meilleurs

Classement

Favoris