Học Tăng Cường (RL) từ lâu đã là phương pháp chính để tinh chỉnh, cung cấp sức mạnh cho nhiều LLM tiên tiến nhất. Các phương pháp như PPO và GRPO khám phá trong không gian hành động. Nhưng liệu chúng ta có thể khám phá trực tiếp trong không gian tham số không? CÓ, chúng ta có thể. Chúng tôi đề xuất một khung quy mô cho việc tinh chỉnh toàn bộ tham số bằng cách sử dụng Chiến lược Tiến hóa (ES). Bằng cách bỏ qua các gradient và tối ưu hóa trực tiếp trong không gian tham số, ES đạt được việc tinh chỉnh chính xác, hiệu quả và ổn định hơn. Bài báo: Mã: