Simpla adăugare a zgomotului Gaussian la LLM-uri (un singur pas—fără iterații, fără rată de învățare, fără gradiente) și asemănarea acestora poate obține performanțe comparabile sau chiar mai bune decât GRPO/PPO standard la sarcini de raționament matematic, programare, scriere și chimie. Numim acest algoritm RandOpt. Pentru a verifica că acest lucru nu este limitat la modele specifice, am testat pe Qwen, Llama, OLMo3 și VLM-uri. Ce se ascunde în spatele asta? Descoperim că în vecinătatea gaussiană de căutare în jurul LLM-urilor preantrenate, experții diverși în sarcini sunt distribuiți dens — un regim pe care îl numim Neural Thickets. Hârtie: Cod: Site: