Uczenie przez wzmocnienie (RL) od dawna jest dominującą metodą dostrajania, napędzając wiele najnowocześniejszych LLM-ów. Metody takie jak PPO i GRPO eksplorują w przestrzeni akcji. Ale czy możemy zamiast tego eksplorować bezpośrednio w przestrzeni parametrów? TAK, możemy. Proponujemy skalowalny framework do pełnego dostrajania parametrów z wykorzystaniem strategii ewolucyjnych (ES). Pomijając gradienty i optymalizując bezpośrednio w przestrzeni parametrów, ES osiąga dokładniejsze, bardziej efektywne i stabilne dostrajanie. Artykuł: Kod: