トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
強化学習 (RL) は長い間、微調整のための主要な手法であり、多くの最先端の LLM を強化してきました。PPO や GRPO などの手法は、アクション空間を探索します。しかし、代わりにパラメータ空間で直接探索することはできるでしょうか?はい、できます。Evolution Strategies(ES)を用いたフルパラメータ微調整のためのスケーラブルなフレームワークを提案します。
勾配をスキップし、パラメータ空間で直接最適化することで、ESはより正確で効率的かつ安定した微調整を実現します。
紙:
コード:
トップ
ランキング
お気に入り
