Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Обучение с подкреплением (RL) долгое время было доминирующим методом для тонкой настройки, обеспечивая работу многих современных LLM. Методы, такие как PPO и GRPO, исследуют пространство действий. Но можем ли мы вместо этого исследовать непосредственно в пространстве параметров? ДА, можем. Мы предлагаем масштабируемую структуру для полной тонкой настройки параметров с использованием Эволюционных Стратегий (ES).
Пропуская градиенты и оптимизируя непосредственно в пространстве параметров, ES достигает более точной, эффективной и стабильной тонкой настройки.
Статья:
Код:
Топ
Рейтинг
Избранное
