Banger-raportti Kimin tiimiltä: Huomio jäännökset Jäännösliitännät tekivät syvät muuntajat ohjattaviksi. Mutta ne myös pakottavat hallitsemattomaan piilotettuun tilaan perustuvan kasvun syvyydellä. Tämä teos ehdottaa puhtaampaa vaihtoehtoa. Se ottaa käyttöön Attention Residuals, jotka korvaavat kiinteän jäännöskertymän softmax-tarkkaavaisuudella aiempien kerrosten lähtöjen yli. Sen sijaan, että kaikki summattaisiin sokeasti, jokainen kerros hakee valikoivasti ne aiemmat esitykset, joita se oikeasti tarvitsee. Jotta tämä pysyisi käytännöllisenä, he lisäävät lohkokohtaisen version, joka pakkaa kerrokset lohkoyhteenvetoiksi, palauttaen suurimman osan hyödyistä minimaalisella järjestelmäkuormituksella. Miksi sillä on väliä? Jäännöspolut ovat tuskin muuttuneet nykyaikaisissa LLM:issä, vaikka ne ohjaavat, miten tieto kulkee syvyyden läpi. Tässä artikkelissa osoitetaan, että sekoittamisen sisältöriippuvuus parantaa skaalauslakeja, vastaa 1,25-kertaisella laskentatehoa koulutettua peruslinjaa, parantaa GPQA-Diamondia +7,5 ja HumanEvalia +3,1, pitäen päättelykulut alle 2 %. Artikkeli: Opettele rakentamaan tehokkaita tekoälyagentteja akatemiassamme: