Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Banger-raportti Kimin tiimiltä: Huomio jäännökset
Jäännösliitännät tekivät syvät muuntajat ohjattaviksi.
Mutta ne myös pakottavat hallitsemattomaan piilotettuun tilaan perustuvan kasvun syvyydellä.
Tämä teos ehdottaa puhtaampaa vaihtoehtoa.
Se ottaa käyttöön Attention Residuals, jotka korvaavat kiinteän jäännöskertymän softmax-tarkkaavaisuudella aiempien kerrosten lähtöjen yli.
Sen sijaan, että kaikki summattaisiin sokeasti, jokainen kerros hakee valikoivasti ne aiemmat esitykset, joita se oikeasti tarvitsee.
Jotta tämä pysyisi käytännöllisenä, he lisäävät lohkokohtaisen version, joka pakkaa kerrokset lohkoyhteenvetoiksi, palauttaen suurimman osan hyödyistä minimaalisella järjestelmäkuormituksella.
Miksi sillä on väliä?
Jäännöspolut ovat tuskin muuttuneet nykyaikaisissa LLM:issä, vaikka ne ohjaavat, miten tieto kulkee syvyyden läpi.
Tässä artikkelissa osoitetaan, että sekoittamisen sisältöriippuvuus parantaa skaalauslakeja, vastaa 1,25-kertaisella laskentatehoa koulutettua peruslinjaa, parantaa GPQA-Diamondia +7,5 ja HumanEvalia +3,1, pitäen päättelykulut alle 2 %.
Artikkeli:
Opettele rakentamaan tehokkaita tekoälyagentteja akatemiassamme:

Johtavat
Rankkaus
Suosikit
