Jednoduše přidání gaussovského šumu do LLM (jeden krok – žádné iterace, žádná rychlost učení, žádné gradienty) a jejich složení může dosáhnout výkonu srovnatelného nebo dokonce lepšího než standardní GRPO/PPO v úlohách z matematického uvažování, programování, psaní a chemie. Tento algoritmus nazýváme RandOpt. Abychom ověřili, že to není omezeno jen na konkrétní modely, testovali jsme to na Qwen, Llama, OLMo3 a VLM. Co je za tím? Zjistili jsme, že v gaussovském hledacím prostředí kolem předtrénovaných LLM jsou různorodí experti na úkoly hustě rozptýleni — režim, který nazýváme Neurální houštiny. Článek: Kód: Web: