Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Chỉ cần thêm tiếng ồn Gaussian vào LLMs (một bước - không có vòng lặp, không có tốc độ học, không có độ dốc) và kết hợp chúng có thể đạt được hiệu suất tương đương hoặc thậm chí tốt hơn so với GRPO/PPO tiêu chuẩn trong các nhiệm vụ lý luận toán học, lập trình, viết lách và hóa học. Chúng tôi gọi thuật toán này là RandOpt. Để xác minh rằng điều này không giới hạn ở các mô hình cụ thể, chúng tôi đã thử nghiệm nó trên Qwen, Llama, OLMo3 và VLMs. Điều gì đứng sau điều này? Chúng tôi nhận thấy rằng trong khu vực tìm kiếm Gaussian xung quanh các LLM đã được huấn luyện trước, các chuyên gia nhiệm vụ đa dạng được phân bố dày đặc - một chế độ mà chúng tôi gọi là Neural Thickets. Bài báo: Mã: Trang web:

Hàng đầu

Thứ hạng

Yêu thích