Kirjoitan yhä enemmän @Zai_org nykyään, mutta heidän innovaatiovauhtinsa tuntuu olevan merkittävä. Ja tässä me taas olemme.... Jos olet noudattanut skaalauslakeja, tiedät, että raakaparametrien määrä alkaa heikentää arkkitehtuurin tehokkuutta ja datan laatua. @Zai_org GLM-5 on mestarikurssi tässä siirtymässä. Kyseessä on 744B Mixture-of-Experts (MoE) -hirviö, joka aktivoi vain 40B parametria per token. Se on laiha siellä, missä sillä on merkitystä, ja massiivinen siellä missä sen pitääkin. @layerlens_ai olemme aktiivisesti arvioineet GLM-5:ttä, ja voit arvioida tulokset itse: Autonomian arkkitehtuuri Merkittävin innovaatio tässä on DeepSeek Sparse Attention (DSA) yhdistettynä uuteen "Slime" RL Frameworkiin. Vanhan paradigman mukaan RLHF tarkoitti mallien tekemistä "mukavammiksi". GLM-5:ssä vahvistusoppimista käytetään yhdistämään ajattelun ja tekemisen välistä kuilua. Tämä asynkroninen RL-pino antaa mallille mahdollisuuden "leikitellä" monimutkaisten, monivaiheisten insinööritehtävien kanssa, oppien epäonnistumisista tavalla, joka jäljittelee vanhempaa insinööriä PR:n parissa. Kyse ei ole vain seuraavan tokenin ennustamisesta; Se ennustaa seuraavaa ratkaisua. "Sukupolvien välisen hypyn" vertailu LayerLensin hallintapaneeli ei ole pelkkä numerolista; Se on korkean ulottuvuuden päättelyn kartta. Tässä ovat tämän julkaisun ydinmittarit: Humanity's Last Exam (HLE) [Pistemäärä: 50,4]: HLE on suunniteltu "lopulliseksi" akateemiseksi vertailuarvoksi, ja se koostuu asiantuntijoiden tarkastamista kysymyksistä, jotka ovat tarkoituksella "Google-proof". 50,4-tasolla GLM-5 ei muista pelkästään faktoja; se päihittää Claude 4.5 Opuksen (43.4) ja GPT-5.2:n (45.5) työkaluilla täydennetyssä synteesissä. SWE-bench Verified [Pisteet: 77,8 %]: Tämä on todellisen maailman ohjelmistotekniikan kultainen standardi. Mallin täytyy selata repoa, toistaa bugi ja lähettää toiminnallinen pull request. GLM-5 vaihtaa nyt iskuja maailman tehokkaimpien suljettujen järjestelmien kanssa. BrowseComp (kontekstinhallinnan kanssa) [Pistemäärä: 75,9]: "Kontekstuaalisen toimijuuden" testi. Se mittaa mallin kykyä navigoida live-verkkosivustoilla ja ylläpitää muistia pitkien vuorovaikutushistorian aikana. GLM-5:n pistemäärä johtaa joukkoa, ylittäen GPT-5.2:n (65,8). Vending Bench 2 [Ranking #1]: Vuoden mittainen liiketoimintasimulaatio, joka mittaa jatkuvaa suunnittelua ja operatiivista päätöksentekoa. GLM-5:n lopputulos oli 4 432 dollaria—korkein kaikista avoimen lähdekoodin malleista—mikä osoittaa, että se pystyy ylläpitämään johdonmukaista strategiaa tuhansien kierrosten ajan. τ²-Bench [Pistemäärä: 89,7]: Testaten monimutkaisia monivaiheisia agenttitilanteita, GLM-5 vastasi tehokkaasti Claude 4.5 Opusta (91.6) ja ylitti GPT-5.2:n (85.5), vahvistaen asemaansa agenttijärjestelmänä chatbotin sijaan. Laitteiston suvereniteetti Koulutustarinassa on kaunis ironia: GLM-5 koulutettiin kokonaan Huawei Ascend -infrastruktuurilla. Se muistuttaa, että älykkyys on riippumatonta alustasta. Et tarvitse tiettyä piimerkkiä päästäksesi rajalle; tarvitset oikean arkkitehtonisen intuition ja vuoren korkealaatuisia tokeneita – tarkalleen ottaen 28,5T. Miksi tämä on tärkeää...