Reinforcement Learning (RL) har länge varit den dominerande metoden för finjustering och driver många toppmoderna LLM:er. Metoder som PPO och GRPO utforskar i aktionsrymden. Men kan vi istället utforska direkt i parameterrymden? Ja det kan vi. Vi föreslår ett skalbart ramverk för finjustering av fullständiga parametrar med hjälp av Evolution Strategies (ES). Genom att hoppa över gradienter och optimera direkt i parameterrymden uppnår ES en mer exakt, effektiv och stabil finjustering. Papper: Kod: