分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

解釈すると、トレーニング後のウェイトはプレトレーニング中に見たすべてのタスクとほぼ同じ距離になる(モデルはすべてのタスクを見ているので、そのタスクを自分の方に引き寄せている)。この方法は重みを摂動し、どの摂動がネットワークをタスク固有の重みに近づけるかを見るだけです。まるで本当に安物のローラみたいだこれは、ポストトレーニングが知識を追加するのではなく、単にプレトレーニングの分布を彫り込むだけだという観察にもつながっています

摂動重量は高温でのランダムな転移に例えられています。これは反復的に(GRPOのように)できると思います半径が大きい摂動重み -> より優れた性能を持つものを選ぶ ->半径が減少し続けますこれにより作業の精度は*本来*向上するはずです @yule_gan試しましたか?

28

トップ

ランキング

お気に入り