Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Reinforcement Learning (RL) telah lama menjadi metode dominan untuk penyempurnaan, mendukung banyak LLM canggih. Metode seperti PPO dan GRPO mengeksplorasi ruang aksi. Tetapi bisakah kita mengeksplorasi langsung di ruang parameter? Ya kita bisa. Kami mengusulkan kerangka kerja yang dapat diskalakan untuk penyempurnaan parameter penuh menggunakan Strategi Evolusi (ES).
Dengan melewatkan gradien dan mengoptimalkan langsung di ruang parameter, ES mencapai penyempurnaan yang lebih akurat, efisien, dan stabil.
Kertas:
Kode:
Teratas
Peringkat
Favorit
