Навчання з підкріпленням (RL) довгий час було домінуючим методом для тонкого налаштування, що забезпечує роботу багатьох сучасних LLM. Такі методи, як PPO та GRPO, досліджують у просторі дій. Але чи можемо ми замість цього досліджувати безпосередньо в просторі параметрів? Так, ми можемо. Ми пропонуємо масштабовану структуру для тонкого налаштування повних параметрів за допомогою Evolution Strategies (ES). Пропускаючи градієнти та оптимізуючи безпосередньо в просторі параметрів, ES досягає більш точного, ефективного та стабільного точного налаштування. Папір: Код: