Обучение с подкреплением (RL) долгое время было доминирующим методом для тонкой настройки, обеспечивая работу многих современных LLM. Методы, такие как PPO и GRPO, исследуют пространство действий. Но можем ли мы вместо этого исследовать непосредственно в пространстве параметров? ДА, можем. Мы предлагаем масштабируемую структуру для полной тонкой настройки параметров с использованием Эволюционных Стратегий (ES). Пропуская градиенты и оптимизируя непосредственно в пространстве параметров, ES достигает более точной, эффективной и стабильной тонкой настройки. Статья: Код: