Reinforcement Learning (RL) ist seit langem die dominierende Methode für das Fine-Tuning und treibt viele hochmoderne LLMs an. Methoden wie PPO und GRPO erkunden den Aktionsraum. Aber können wir stattdessen direkt im Parameterraum erkunden? JA, das können wir. Wir schlagen ein skalierbares Framework für das vollständige Parameter-Fine-Tuning mit Evolution Strategies (ES) vor. Durch das Überspringen von Gradienten und die direkte Optimierung im Parameterraum erreicht ES ein genaueres, effizienteres und stabileres Fine-Tuning. Paper: Code: