トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
解釈すると、トレーニング後のウェイトはプレトレーニング中に見たすべてのタスクとほぼ同じ距離になる(モデルはすべてのタスクを見ているので、そのタスクを自分の方に引き寄せている)。この方法は重みを摂動し、どの摂動がネットワークをタスク固有の重みに近づけるかを見るだけです。まるで本当に安物のローラみたいだ
これは、ポストトレーニングが知識を追加するのではなく、単にプレトレーニングの分布を彫り込むだけだという観察にもつながっています

3月13日 23:41
単純にLLMにガウスノイズを加え(1ステップ—反復なし、学習率なし、勾配なし)、アンサンブル化することで、数学推論、コーディング、執筆、化学の課題において標準的なGRPO/PPOと同等かそれ以上の性能を達成できます。このアルゴリズムはRandOptと呼んでいます。
これが特定のモデルに限定されないことを確認するため、Qwen、Llama、OLMo3、VLMでテストしました。
これは何が原因なのでしょうか?私たちは、事前学習済みLLM周辺のガウス探索近傍では、多様なタスクエキスパートが密に分布していることを発見しました。これは私たちが「ニューラルシケッツ」と呼ぶ領域です。
論文:
コード:
ウェブサイト:

摂動重量は高温でのランダムな転移に例えられています。これは反復的に(GRPOのように)できると思います
半径が大きい摂動重み -> より優れた性能を持つものを選ぶ ->半径が減少し続けます
これにより作業の精度は*本来*向上するはずです
@yule_gan試しましたか?
28
トップ
ランキング
お気に入り
