Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

В последнее время я все больше пишу о @Zai_org, но их темп инноваций просто замечательный. И вот мы снова здесь.... Если вы следили за законами масштабирования, вы знаете, что количество параметров начинает уступать архитектурной эффективности и качеству данных. @Zai_org GLM-5 — это мастер-класс в этом переходе. Мы имеем дело с 744B Mixture-of-Experts (MoE) монстром, который активирует только 40B параметров на токен. Он эффективен там, где это важно, и массивен там, где это необходимо. В @layerlens_ai мы активно оцениваем GLM-5, и вы можете сами увидеть результаты: Архитектура автономии Выдающаяся инновация здесь — это DeepSeek Sparse Attention (DSA), объединенная с новой "Slime" RL Framework. В старой парадигме RLHF заключалась в том, чтобы сделать модели "добрее". В GLM-5 обучение с подкреплением используется для преодоления разрыва между мышлением и действием. Этот асинхронный стек RL позволяет модели "играть" с комплексными многошаговыми инженерными задачами, обучаясь на ошибках так, как это делает старший инженер, работающий над PR. Это не просто предсказание следующего токена; это предсказание следующего решения. Бенчмаркинг "Поколенческого скачка" Панель управления на LayerLens — это не просто список чисел; это карта высокоразумного рассуждения. Вот основные метрики, которые определяют этот релиз: Последний экзамен человечества (HLE) [Оценка: 50.4]: Разработан как "финальный" академический бенчмарк, HLE состоит из вопросов, проверенных экспертами, которые намеренно "защищены от Google". С оценкой 50.4 GLM-5 не просто вспоминает факты; он превосходит Claude 4.5 Opus (43.4) и GPT-5.2 (45.5) в синтезе с использованием инструментов. SWE-bench Verified [Оценка: 77.8%]: Это золотой стандарт для реального программного обеспечения. Модель должна просмотреть репозиторий, воспроизвести ошибку и отправить функциональный запрос на изменение. GLM-5 теперь соперничает с самыми мощными проприетарными системами в мире. BrowseComp (с управлением контекстом) [Оценка: 75.9]: Тест "контекстуальной агентности". Он измеряет способность модели навигировать по живым веб-сайтам и поддерживать память на протяжении длительных взаимодействий. Оценка GLM-5 лидирует, превосходя GPT-5.2 (65.8). Vending Bench 2 [Ранг #1]: Годовая бизнес-симуляция, измеряющая устойчивое планирование и операционное принятие решений. GLM-5 завершил с конечным балансом $4,432 — самым высоким среди всех моделей с открытым исходным кодом — доказывая, что он может поддерживать последовательную стратегию на протяжении тысяч ходов. τ²-Bench [Оценка: 89.7]: Тестирование сложных многошаговых сценариев агентов, GLM-5 эффективно сравнялся с Claude 4.5 Opus (91.6) и превзошел GPT-5.2 (85.5), укрепляя свою позицию как агентной системы, а не чат-бота. Аппаратный суверенитет В истории обучения есть красивая ирония: GLM-5 был полностью обучен на инфраструктуре Huawei Ascend. Это напоминание о том, что интеллект не зависит от субстрата. Вам не нужен конкретный бренд кремния, чтобы достичь границы; вам нужно правильное архитектурное чутье и гора высококачественных токенов — 28.5T, если быть точным. Почему это важно...

Топ

Рейтинг

Избранное