DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Door simpelweg Gaussiaanse ruis toe te voegen aan LLM's (één stap - geen iteraties, geen leersnelheid, geen gradiënten) en ze te ensemblen, kan een prestatie worden bereikt die vergelijkbaar is met of zelfs beter dan standaard GRPO/PPO op wiskundige redenering, coderen, schrijven en chemietaken. We noemen dit algoritme RandOpt. Om te verifiëren dat dit niet beperkt is tot specifieke modellen, hebben we het getest op Qwen, Llama, OLMo3 en VLM's. Wat zit hierachter? We ontdekken dat in de Gaussiaanse zoekbuurt rond voorgetrainde LLM's, diverse taakexperts dicht bij elkaar zijn verdeeld - een regime dat we Neural Thickets noemen. Paper: Code: Website:

Boven

Positie

Favorieten