Sadece LLM'lere Gauss gürültüsü eklemek (tek adım—iterasyon yok, öğrenme hızı yok, gradyan yok) ve onları birleştirmek, matematiksel akıl yürütme, kodlama, yazma ve kimya görevlerinde standart GRPO/PPO ile karşılaştırılabilir veya hatta daha iyi performans elde edebilir. Bu algoritmaya RandOpt diyoruz. Bunun sadece belirli modellerle sınırlı olmadığını doğrulamak için Qwen, Llama, OLMo3 ve VLM'lerde test ettik. Bunun arkasında ne var? Önceden eğitilmiş LLM'lerin çevresindeki Gauss arama mahallesinde çeşitli görev uzmanlarının yoğun şekilde dağınık olduğunu görüyoruz — bu rejime Sinir Çalılıkları adını veriyoruz. Makale: Kod: Web Sitesi: