Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Saya menemukan diri saya menulis lebih banyak tentang @Zai_org akhir-akhir ini, tetapi seperti kecepatan inovasi mereka luar biasa.
Dan di sini kita lagi....
Jika Anda telah mengikuti undang-undang penskalaan, Anda tahu bahwa jumlah parameter mentah mulai menghasilkan efisiensi arsitektur dan kualitas data. @Zai_org GLM-5 adalah kelas master dalam transisi ini. Kami melihat binatang Mixture-of-Experts (MoE) 744B yang hanya mengaktifkan parameter 40B per token. Ini ramping di mana itu penting dan besar di tempat yang seharusnya.
Di @layerlens_ai kami telah secara aktif mengevaluasi GLM-5 dan Anda hanya dapat mengevaluasi hasilnya sendiri:
Arsitektur Otonomi
Inovasi yang menonjol di sini adalah DeepSeek Sparse Attention (DSA) yang dikombinasikan dengan Kerangka Kerja RL "Slime" yang baru.
Dalam paradigma lama, RLHF adalah tentang membuat model "lebih bagus". Dalam GLM-5, Reinforcement Learning digunakan untuk menjembatani kesenjangan antara berpikir dan melakukan. Tumpukan RL asinkron ini memungkinkan model untuk "bermain" dengan tugas rekayasa multi-langkah yang kompleks, belajar dari kegagalan dengan cara yang meniru insinyur senior yang menggiling melalui PR. Ini bukan hanya memprediksi token berikutnya; Ini memprediksi solusi berikutnya.
Membandingkan "Lompatan Generasi"
Dasbor di LayerLens bukan hanya daftar angka; Ini adalah peta penalaran dimensi tinggi. Berikut adalah metrik inti yang menentukan rilis ini:
Ujian Terakhir Kemanusiaan (HLE) [Skor: 50.4]: Dirancang untuk menjadi tolok ukur akademik "akhir", HLE terdiri dari pertanyaan yang diperiksa oleh ahli yang sengaja "bukti Google". Pada 50,4, GLM-5 tidak hanya mengingat fakta; itu mengalahkan Claude 4.5 Opus (43.4) dan GPT-5.2 (45.5) dalam sintesis yang ditambah alat.
SWE-bench Verified [Skor: 77.8%]: Ini adalah standar emas untuk rekayasa perangkat lunak dunia nyata. Model harus menelusuri reposito, mereproduksi bug, dan mengirimkan permintaan tarik fungsional. GLM-5 sekarang bertukar pukulan dengan sistem kepemilikan paling kuat di dunia.
BrowseComp (dengan Manajemen Konteks) [Skor: 75.9]: Tes "agen kontekstual". Ini mengukur kemampuan model untuk menavigasi situs web langsung dan mempertahankan memori selama riwayat interaksi yang diperpanjang. Skor GLM-5 memimpin, mengungguli GPT-5.2 (65.8).
Vending Bench 2 [Peringkat #1]: Simulasi bisnis selama setahun yang mengukur perencanaan berkelanjutan dan pengambilan keputusan operasional. GLM-5 selesai dengan saldo akun akhir sebesar $4.432—tertinggi di antara semua model sumber terbuka—membuktikan bahwa ia dapat mempertahankan strategi yang koheren selama ribuan putaran.
τ²-Bench [Skor: 89.7]: Menguji skenario agen multi-langkah yang kompleks, GLM-5 secara efektif cocok dengan Claude 4.5 Opus (91.6) dan melampaui GPT-5.2 (85.5), memperkuat posisinya sebagai sistem agen daripada chatbot.
Kedaulatan Perangkat Keras
Ada ironi yang indah dalam cerita pelatihan: GLM-5 dilatih sepenuhnya pada infrastruktur Huawei Ascend. Ini adalah pengingat bahwa kecerdasan tidak bergantung pada substrat. Anda tidak memerlukan merek silikon tertentu untuk mencapai perbatasan; Anda memerlukan intuisi arsitektur yang tepat dan segunung token berkualitas tinggi—tepatnya 28,5T.
Mengapa Ini Penting...

Teratas
Peringkat
Favorit
