強化学習 (RL) は長い間、微調整のための主要な手法であり、多くの最先端の LLM を強化してきました。PPO や GRPO などの手法は、アクション空間を探索します。しかし、代わりにパラメータ空間で直接探索することはできるでしょうか?はい、できます。Evolution Strategies(ES)を用いたフルパラメータ微調整のためのスケーラブルなフレームワークを提案します。 勾配をスキップし、パラメータ空間で直接最適化することで、ESはより正確で効率的かつ安定した微調整を実現します。 紙: コード: