Pelkkä Gaussin kohinan lisääminen LLM-malleihin (yksi vaihe – ei iteraatioita, ei oppimisnopeutta, ei gradientteja) ja niiden kokoonpano voi saavuttaa suorituskyvyn, joka on verrattavissa tai jopa parempi kuin tavallinen GRPO/PPO matemaattisessa päättelyssä, koodauksessa, kirjoittamisessa ja kemian tehtävissä. Kutsumme tätä algoritmia RandOptiksi. Varmistaaksemme, ettei tämä rajoitu tiettyihin malleihin, testasimme sitä Qwenillä, Llamalla, OLMo3:lla ja VLM:illä. Mikä tämän taustalla on? Havaitsimme, että Gaussin hakualueella esikoulutettujen LLM:ien ympärillä erilaiset tehtäväasiantuntijat ovat tiheästi hajautuneita — tätä järjestelmää kutsumme hermotiheiköiksi. Artikkeli: Koodi: Verkkosivusto: