Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Zpětnovazební učení (RL) je již dlouho dominantní metodou pro jemné doladění, která pohání mnoho nejmodernějších LLM. Metody jako PPO a GRPO zkoumají v akčním prostoru. Ale můžeme místo toho zkoumat přímo v prostoru parametrů? Ano, můžeme. Navrhujeme škálovatelný rámec pro doladění plných parametrů pomocí evolučních strategií (ES).
Přeskakováním přechodů a optimalizací přímo v prostoru parametrů dosahuje ES přesnějšího, efektivnějšího a stabilnějšího jemného doladění.
Papír:
Kód:
Top
Hodnocení
Oblíbené
