トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
強いモデルは自信がつくにつれて難しいことを学ぶのが難しくなってしまうこともあります。間違った答えがあまりにも低く押されて、勾配がほとんど消えてしまうからです
WMSSは逆転します。強力なモデルを現在の予測だけでなく、自身のより古い弱いチェックポイントで訓練します
弱いチェックポイントは、もっともらしいが間違った答えに非自明な確率を割り当てます。その柔らかい分布での訓練は、強いモデルに正しいものとほぼ正しいものを分離し続けさせ、すでに信じているものを磨くことを避けます
論文は数学+コーディングで有意な向上を報告しており、難しいセットではより大きな向上が見られます。ただし、4bから8bパラメータあたりでテストされ、フロンティアスケールではないので、これを確定したものとは見なしていません。
あまり語られていない含意:真剣な研究室には過去の調査の中間チェックポイントの墓場がすでにある。弱点駆動学習が70b+で維持されると、「無駄な」チェックポイントはすでに手元にあるトレーニングリソースになります
強いモデルは自分を疑うのをやめたときに停滞する...実用的な方法の一つは、過去の自分👀と議論させることかもしれません
論文へのリンク:arxiv。org/abs/2602.08222

トップ
ランキング
お気に入り
