Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Uczenie przez wzmocnienie (RL) od dawna jest dominującą metodą dostrajania, napędzając wiele najnowocześniejszych LLM-ów. Metody takie jak PPO i GRPO eksplorują w przestrzeni akcji. Ale czy możemy zamiast tego eksplorować bezpośrednio w przestrzeni parametrów? TAK, możemy. Proponujemy skalowalny framework do pełnego dostrajania parametrów z wykorzystaniem strategii ewolucyjnych (ES).
Pomijając gradienty i optymalizując bezpośrednio w przestrzeni parametrów, ES osiąga dokładniejsze, bardziej efektywne i stabilne dostrajanie.
Artykuł:
Kod:
Najlepsze
Ranking
Ulubione
