Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Навчання з підкріпленням (RL) довгий час було домінуючим методом для тонкого налаштування, що забезпечує роботу багатьох сучасних LLM. Такі методи, як PPO та GRPO, досліджують у просторі дій. Але чи можемо ми замість цього досліджувати безпосередньо в просторі параметрів? Так, ми можемо. Ми пропонуємо масштабовану структуру для тонкого налаштування повних параметрів за допомогою Evolution Strategies (ES).
Пропускаючи градієнти та оптимізуючи безпосередньо в просторі параметрів, ES досягає більш точного, ефективного та стабільного точного налаштування.
Папір:
Код:
Найкращі
Рейтинг
Вибране
