Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tulkitaan niin, että jälkiharjoituksen jälkeen painot ovat suunnilleen yhtä kaukana kaikista tehtävistä, joita esiharjoittelussa nähtiin (malli on nähnyt kaikki tehtävät, joten he ovat vetäneet ne itseään kohti). Joten tämä menetelmä vain häiritsee painoja ja näkee, mitkä häiriöt tuovat verkon lähemmäs tehtäväkohtaisia painoja. Se on kuin todella halpa Lora
Tämä liittyy myös havaintoon, että jälkikoulutus ei lisää tietoa, vaan veistää esikoulutuksen jakauman

13.3. klo 23.41
Pelkkä Gaussin kohinan lisääminen LLM-malleihin (yksi vaihe – ei iteraatioita, ei oppimisnopeutta, ei gradientteja) ja niiden kokoonpano voi saavuttaa suorituskyvyn, joka on verrattavissa tai jopa parempi kuin tavallinen GRPO/PPO matemaattisessa päättelyssä, koodauksessa, kirjoittamisessa ja kemian tehtävissä. Kutsumme tätä algoritmia RandOptiksi.
Varmistaaksemme, ettei tämä rajoitu tiettyihin malleihin, testasimme sitä Qwenillä, Llamalla, OLMo3:lla ja VLM:illä.
Mikä tämän taustalla on? Havaitsimme, että Gaussin hakualueella esikoulutettujen LLM:ien ympärillä erilaiset tehtäväasiantuntijat ovat tiheästi hajautuneita — tätä järjestelmää kutsumme hermotiheiköiksi.
Artikkeli:
Koodi:
Verkkosivusto:

Painojen häiritseminen on oikeastaan verrattavissa satunnaisiin rullauksiin korkeissa lämpötiloissa. Uskon, että tämä voi olla iteratiivista (kuten grpo).
häiriöpainot, joilla on suuri säde -> valitse parempia suorittajia -> säde pienenee
tämän *pitäisi* parantaa tehtävän tarkkuutta
@yule_gan kokeilit tätä?
28
Johtavat
Rankkaus
Suosikit
