Reinforcement Learning (RL) har lenge vært den dominerende metoden for finjustering, og driver mange toppmoderne LLM-er. Metoder som PPO og GRPO utforsker i handlingsrom. Men kan vi i stedet utforske direkte i parameterrommet? Ja, det kan vi. Vi foreslår et skalerbart rammeverk for finjustering av fullparametere ved hjelp av Evolution Strategies (ES). Ved å hoppe over gradienter og optimalisere direkte i parameterrommet, oppnår ES mer nøyaktig, effektiv og stabil finjustering. Papir: Kode: