DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Reinforcement Learning (RL) telah lama menjadi metode dominan untuk penyempurnaan, mendukung banyak LLM canggih. Metode seperti PPO dan GRPO mengeksplorasi ruang aksi. Tetapi bisakah kita mengeksplorasi langsung di ruang parameter? Ya kita bisa. Kami mengusulkan kerangka kerja yang dapat diskalakan untuk penyempurnaan parameter penuh menggunakan Strategi Evolusi (ES). Dengan melewatkan gradien dan mengoptimalkan langsung di ruang parameter, ES mencapai penyempurnaan yang lebih akurat, efisien, dan stabil. Kertas: Kode:

Teratas

Peringkat

Favorit