分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

強いモデルは自信がつくにつれて難しいことを学ぶのが難しくなってしまうこともあります。間違った答えがあまりにも低く押されて、勾配がほとんど消えてしまうからです WMSSは逆転します。強力なモデルを現在の予測だけでなく、自身のより古い弱いチェックポイントで訓練します弱いチェックポイントは、もっともらしいが間違った答えに非自明な確率を割り当てます。その柔らかい分布での訓練は、強いモデルに正しいものとほぼ正しいものを分離し続けさせ、すでに信じているものを磨くことを避けます論文は数学+コーディングで有意な向上を報告しており、難しいセットではより大きな向上が見られます。ただし、4bから8bパラメータあたりでテストされ、フロンティアスケールではないので、これを確定したものとは見なしていません。あまり語られていない含意:真剣な研究室には過去の調査の中間チェックポイントの墓場がすでにある。弱点駆動学習が70b+で維持されると、「無駄な」チェックポイントはすでに手元にあるトレーニングリソースになります強いモデルは自分を疑うのをやめたときに停滞する...実用的な方法の一つは、過去の自分👀と議論させることかもしれません論文へのリンク:arxiv。org/abs/2602.08222

トップ

ランキング

お気に入り