分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

強化学習 (RL) は長い間、微調整のための主要な手法であり、多くの最先端の LLM を強化してきました。PPO や GRPO などの手法は、アクション空間を探索します。しかし、代わりにパラメータ空間で直接探索することはできるでしょうか?はい、できます。Evolution Strategies(ES)を用いたフルパラメータ微調整のためのスケーラブルなフレームワークを提案します。勾配をスキップし、パラメータ空間で直接最適化することで、ESはより正確で効率的かつ安定した微調整を実現します。紙：コード：

トップ

ランキング

お気に入り