Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Học Tăng Cường (RL) từ lâu đã là phương pháp chính để tinh chỉnh, cung cấp sức mạnh cho nhiều LLM tiên tiến nhất. Các phương pháp như PPO và GRPO khám phá trong không gian hành động. Nhưng liệu chúng ta có thể khám phá trực tiếp trong không gian tham số không? CÓ, chúng ta có thể. Chúng tôi đề xuất một khung quy mô cho việc tinh chỉnh toàn bộ tham số bằng cách sử dụng Chiến lược Tiến hóa (ES).
Bằng cách bỏ qua các gradient và tối ưu hóa trực tiếp trong không gian tham số, ES đạt được việc tinh chỉnh chính xác, hiệu quả và ổn định hơn.
Bài báo:
Mã:
Hàng đầu
Thứ hạng
Yêu thích
