DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Versterkend leren (RL) is al lange tijd de dominante methode voor fine-tuning en drijft veel state-of-the-art LLM's aan. Methoden zoals PPO en GRPO verkennen in de actieruimte. Maar kunnen we in plaats daarvan direct in de parameter ruimte verkennen? JA, dat kunnen we. We stellen een schaalbaar kader voor voor full-parameter fine-tuning met behulp van Evolutie Strategieën (ES). Door gradients over te slaan en direct in de parameter ruimte te optimaliseren, bereikt ES een nauwkeurigere, efficiëntere en stabielere fine-tuning. Paper: Code:

Boven

Positie

Favorieten