Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Gần đây, tôi thấy mình viết ngày càng nhiều về @Zai_org nhưng tốc độ đổi mới của họ thật đáng kinh ngạc. Và chúng ta lại ở đây.... Nếu bạn đã theo dõi các quy luật mở rộng, bạn biết rằng số lượng tham số thô đang bắt đầu nhường chỗ cho hiệu quả kiến trúc và chất lượng dữ liệu. @Zai_org GLM-5 là một bài học mẫu mực trong sự chuyển giao này. Chúng ta đang nhìn vào một con quái vật Mixture-of-Experts (MoE) 744B chỉ kích hoạt 40B tham số cho mỗi token. Nó gọn gàng ở những nơi cần thiết và khổng lồ ở những nơi cần thiết. Tại @layerlens_ai, chúng tôi đã tích cực đánh giá GLM-5 và bạn có thể tự mình xem kết quả: Kiến trúc của Tự chủ Sự đổi mới nổi bật ở đây là DeepSeek Sparse Attention (DSA) kết hợp với khung RL "Slime" mới. Trong mô hình cũ, RLHF là về việc làm cho các mô hình "thân thiện" hơn. Trong GLM-5, Học Tăng cường được sử dụng để thu hẹp khoảng cách giữa suy nghĩ và hành động. Ngăn xếp RL không đồng bộ này cho phép mô hình "chơi" với các nhiệm vụ kỹ thuật phức tạp, nhiều bước, học hỏi từ thất bại theo cách mà mô phỏng một kỹ sư cao cấp làm việc qua một PR. Nó không chỉ dự đoán token tiếp theo; nó đang dự đoán giải pháp tiếp theo. Đánh giá "Bước Nhảy Thế Hệ" Bảng điều khiển trên LayerLens không chỉ là một danh sách các con số; nó là một bản đồ của lý luận đa chiều. Dưới đây là các chỉ số cốt lõi định nghĩa bản phát hành này: Kỳ Thi Cuối Cùng của Nhân Loại (HLE) [Điểm: 50.4]: Được thiết kế để trở thành tiêu chuẩn học thuật "cuối cùng", HLE bao gồm các câu hỏi được chuyên gia thẩm định mà cố ý "không thể tìm thấy trên Google." Với 50.4, GLM-5 không chỉ nhớ lại sự thật; nó đang vượt trội hơn Claude 4.5 Opus (43.4) và GPT-5.2 (45.5) trong tổng hợp được hỗ trợ bởi công cụ. SWE-bench Được Xác Minh [Điểm: 77.8%]: Đây là tiêu chuẩn vàng cho kỹ thuật phần mềm thực tế. Mô hình phải duyệt một repo, tái tạo một lỗi và gửi một yêu cầu kéo chức năng. GLM-5 hiện đang giao tranh với các hệ thống độc quyền mạnh mẽ nhất thế giới. BrowseComp (với Quản lý Ngữ cảnh) [Điểm: 75.9]: Một bài kiểm tra về "tác nhân ngữ cảnh." Nó đo lường khả năng của một mô hình trong việc điều hướng các trang web trực tiếp và duy trì trí nhớ qua các lịch sử tương tác kéo dài. Điểm số của GLM-5 dẫn đầu, vượt trội hơn GPT-5.2 (65.8). Vending Bench 2 [Xếp hạng #1]: Một mô phỏng kinh doanh kéo dài một năm đo lường kế hoạch bền vững và ra quyết định vận hành. GLM-5 đã hoàn thành với số dư tài khoản cuối cùng là $4,432—cao nhất trong số tất cả các mô hình mã nguồn mở—chứng minh rằng nó có thể duy trì một chiến lược nhất quán qua hàng ngàn lượt. τ²-Bench [Điểm: 89.7]: Kiểm tra các kịch bản tác nhân phức tạp nhiều bước, GLM-5 đã hiệu quả ngang bằng với Claude 4.5 Opus (91.6) và vượt qua GPT-5.2 (85.5), củng cố vị trí của nó như một hệ thống tác nhân thay vì một chatbot. Chủ Quyền Phần Cứng Có một sự mỉa mai đẹp trong câu chuyện đào tạo: GLM-5 đã được đào tạo hoàn toàn trên cơ sở hạ tầng Huawei Ascend. Đây là một lời nhắc nhở rằng trí tuệ không phụ thuộc vào nền tảng. Bạn không cần một thương hiệu silicon cụ thể để đạt đến ranh giới; bạn cần trực giác kiến trúc đúng và một núi token chất lượng cao—28.5T, để chính xác. Tại Sao Điều Này Quan Trọng...

Hàng đầu

Thứ hạng

Yêu thích