Versterkend leren (RL) is al lange tijd de dominante methode voor fine-tuning en drijft veel state-of-the-art LLM's aan. Methoden zoals PPO en GRPO verkennen in de actieruimte. Maar kunnen we in plaats daarvan direct in de parameter ruimte verkennen? JA, dat kunnen we. We stellen een schaalbaar kader voor voor full-parameter fine-tuning met behulp van Evolutie Strategieën (ES). Door gradients over te slaan en direct in de parameter ruimte te optimaliseren, bereikt ES een nauwkeurigere, efficiëntere en stabielere fine-tuning. Paper: Code: