一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

僅僅向 LLMs 添加高斯噪聲（一步—無需迭代、無需學習率、無需梯度）並進行集成，就能在數學推理、編碼、寫作和化學任務上達到與標準 GRPO/PPO 相當甚至更好的性能。我們稱這個算法為 RandOpt。為了驗證這並不僅限於特定模型，我們在 Qwen、Llama、OLMo3 和 VLMs 上進行了測試。這背後的原因是什麼？我們發現，在預訓練 LLMs 的高斯搜索鄰域中，各種任務專家密集分佈——這種狀態我們稱之為神經叢林。論文：代碼：網站：