DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Je me retrouve à écrire de plus en plus sur @Zai_org ces jours-ci, mais c'est comme si leur rythme d'innovation était remarquable. Et nous y voilà encore.... Si vous avez suivi les lois de mise à l'échelle, vous savez que le nombre brut de paramètres commence à céder la place à l'efficacité architecturale et à la qualité des données. @Zai_org GLM-5 est une masterclass dans cette transition. Nous avons affaire à une bête de 744B Mixture-of-Experts (MoE) qui n'active que 40B de paramètres par token. C'est mince là où ça compte et massif là où ça doit l'être. Chez @layerlens_ai, nous avons activement évalué GLM-5 et vous pouvez voir les résultats par vous-même : L'Architecture de l'Autonomie L'innovation phare ici est l'Attention Sparse DeepSeek (DSA) combinée avec le nouveau cadre RL "Slime". Dans l'ancien paradigme, RLHF consistait à rendre les modèles "plus gentils". Dans GLM-5, l'apprentissage par renforcement est utilisé pour combler le fossé entre penser et agir. Cette pile RL asynchrone permet au modèle de "jouer" avec des tâches d'ingénierie complexes et multi-étapes, apprenant de ses échecs d'une manière qui imite un ingénieur senior travaillant sur une PR. Ce n'est pas juste prédire le prochain token ; c'est prédire la prochaine solution. Évaluation du "Saut Générationnel" Le tableau de bord sur LayerLens n'est pas juste une liste de chiffres ; c'est une carte du raisonnement haute dimension. Voici les métriques clés qui définissent cette version : L'Examen Final de l'Humanité (HLE) [Score : 50.4] : Conçu pour être le benchmark académique "final", HLE se compose de questions validées par des experts qui sont intentionnellement "Google-proof". À 50.4, GLM-5 ne se contente pas de rappeler des faits ; il surpasse Claude 4.5 Opus (43.4) et GPT-5.2 (45.5) dans la synthèse augmentée par des outils. SWE-bench Vérifié [Score : 77.8%] : C'est la référence en matière d'ingénierie logicielle dans le monde réel. Le modèle doit parcourir un dépôt, reproduire un bug et soumettre une demande de tirage fonctionnelle. GLM-5 est maintenant en concurrence avec les systèmes propriétaires les plus puissants au monde. BrowseComp (avec Gestion de Contexte) [Score : 75.9] : Un test de "l'agence contextuelle". Il mesure la capacité d'un modèle à naviguer sur des sites web en direct et à maintenir la mémoire sur de longues interactions. Le score de GLM-5 est en tête, surpassant GPT-5.2 (65.8). Vending Bench 2 [Classé #1] : Une simulation commerciale d'un an mesurant la planification soutenue et la prise de décision opérationnelle. GLM-5 a terminé avec un solde final de 4 432 $—le plus élevé parmi tous les modèles open-source—prouvant qu'il peut maintenir une stratégie cohérente sur des milliers de tours. τ²-Bench [Score : 89.7] : Testant des scénarios d'agents complexes multi-étapes, GLM-5 a efficacement égalé Claude 4.5 Opus (91.6) et a dépassé GPT-5.2 (85.5), renforçant sa position en tant que système agentique plutôt qu'un chatbot. La Souveraineté Matérielle Il y a une belle ironie dans l'histoire de l'entraînement : GLM-5 a été entièrement entraîné sur l'infrastructure Huawei Ascend. C'est un rappel que l'intelligence est indépendante du substrat. Vous n'avez pas besoin d'une marque spécifique de silicium pour atteindre la frontière ; vous avez besoin de la bonne intuition architecturale et d'une montagne de tokens de haute qualité—28,5T, pour être exact. Pourquoi Cela Compte...

Meilleurs

Classement

Favoris