Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Chỉ cần thêm tiếng ồn Gaussian vào LLMs (một bước - không có vòng lặp, không có tốc độ học, không có độ dốc) và kết hợp chúng có thể đạt được hiệu suất tương đương hoặc thậm chí tốt hơn so với GRPO/PPO tiêu chuẩn trong các nhiệm vụ lý luận toán học, lập trình, viết lách và hóa học. Chúng tôi gọi thuật toán này là RandOpt.
Để xác minh rằng điều này không giới hạn ở các mô hình cụ thể, chúng tôi đã thử nghiệm nó trên Qwen, Llama, OLMo3 và VLMs.
Điều gì đứng sau điều này? Chúng tôi nhận thấy rằng trong khu vực tìm kiếm Gaussian xung quanh các LLM đã được huấn luyện trước, các chuyên gia nhiệm vụ đa dạng được phân bố dày đặc - một chế độ mà chúng tôi gọi là Neural Thickets.
Bài báo:
Mã:
Trang web:

Hàng đầu
Thứ hạng
Yêu thích
