La exploración de fronteras de las arquitecturas LLM ha convergido en gran medida. Revisé el código de transformers de HuggingFace para el recién lanzado GLM-5 de @Zai_org (zai-org/GLM-5). Aquí hay un desglose arquitectónico detallado y lo que nos dice sobre hacia dónde se dirige el diseño de LLM. Resumen: Arquitectónicamente, GLM-5 sigue de cerca a DeepSeek-V3 con un ajuste menor. ATENCIÓN: MLA reemplaza a GQA El mayor cambio de GLM-4.7 a GLM-5 es la atención. GLM-4.7 utilizó la Atención de Consulta Agrupada estándar (GQA) con 96 cabezas Q, 8 cabezas KV, proyecciones q/k/v separadas. GLM-5 elimina todo eso y adopta la Atención Latente Multi-cabeza de DeepSeek (MLA). En el pipeline de MLA, las consultas pasan por una proyección de dos etapas estilo LoRA: hidden -> q_a_proj a rango 2048 -> RMSNorm -> q_b_proj a 64 cabezas * 256 dim. Las claves y valores se comprimen conjuntamente en un único cuello de botella de bajo rango: hidden -> kv_a_proj a rango 512+64 -> dividido en un camino KV latente y un camino RoPE. La parte latente se expande de nuevo a través de kv_b_proj en 64 cabezas de (192 nope + 256 valor) dims. Este es el mismo diseño de MLA que DeepSeek-V3. GLM-5 solo ajusta las dimensiones: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128. El kv_lora_rank (512) y qk_rope_head_dim (64) son idénticos. Además, no hay sesgo en ninguna parte de la atención (attention_bias por defecto es False). Cada proyección (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj, y todas las proyecciones del indexador DSA) es libre de sesgo. Esta es ahora una práctica estándar; entre los principales modelos lanzados en 2025, solo GPT-oss sigue utilizando sesgo de atención. ...