Zpětnovazební učení (RL) je již dlouho dominantní metodou pro jemné doladění, která pohání mnoho nejmodernějších LLM. Metody jako PPO a GRPO zkoumají v akčním prostoru. Ale můžeme místo toho zkoumat přímo v prostoru parametrů? Ano, můžeme. Navrhujeme škálovatelný rámec pro doladění plných parametrů pomocí evolučních strategií (ES). Přeskakováním přechodů a optimalizací přímo v prostoru parametrů dosahuje ES přesnějšího, efektivnějšího a stabilnějšího jemného doladění. Papír: Kód: