Reinforcement Learning (RL) telah lama menjadi metode dominan untuk penyempurnaan, mendukung banyak LLM canggih. Metode seperti PPO dan GRPO mengeksplorasi ruang aksi. Tetapi bisakah kita mengeksplorasi langsung di ruang parameter? Ya kita bisa. Kami mengusulkan kerangka kerja yang dapat diskalakan untuk penyempurnaan parameter penuh menggunakan Strategi Evolusi (ES). Dengan melewatkan gradien dan mengoptimalkan langsung di ruang parameter, ES mencapai penyempurnaan yang lebih akurat, efisien, dan stabil. Kertas: Kode: