DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Durch einfaches Hinzufügen von Gaußschem Rauschen zu LLMs (ein Schritt – keine Iterationen, keine Lernrate, keine Gradienten) und deren Ensemble kann eine Leistung erzielt werden, die mit der von standardmäßigen GRPO/PPO bei mathematischen Denk-, Programmier-, Schreib- und Chemieaufgaben vergleichbar oder sogar besser ist. Wir nennen diesen Algorithmus RandOpt. Um zu überprüfen, dass dies nicht auf spezifische Modelle beschränkt ist, haben wir ihn an Qwen, Llama, OLMo3 und VLMs getestet. Was steckt dahinter? Wir stellen fest, dass im Gaußschen Suchumfeld um vortrainierte LLMs vielfältige Experten für Aufgaben dicht verteilt sind – ein Regime, das wir Neural Thickets nennen. Papier: Code: Website:

Top

Ranking

Favoriten