DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Cukup menambahkan noise Gaussian ke LLM (satu langkah—tanpa iterasi, tidak ada tingkat pembelajaran, tidak ada gradien) dan memasangnya dapat mencapai kinerja yang sebanding atau bahkan lebih baik daripada GRPO/PPO standar pada tugas penalaran matematika, pengkodean, penulisan, dan kimia. Kami menyebut algoritma ini RandOpt. Untuk memverifikasi bahwa ini tidak terbatas pada model tertentu, kami mengujinya pada Qwen, Llama, OLMo3, dan VLM. Apa yang ada di balik ini? Kami menemukan bahwa di lingkungan pencarian Gaussian di sekitar LLM yang telah dilatih sebelumnya, beragam ahli tugas tersebar padat - rezim yang kami sebut Neural Thickets. Kertas: Kode: Situs web:

Teratas

Peringkat

Favorit