La exploración fronteriza de las arquitecturas LLM ha convergido en gran medida. He revisado el código de HuggingFace transformers para el recién lanzado GLM-5 de @Zai_org (zai-org/GLM-5). Aquí tienes un desglose arquitectónico detallado y lo que nos dice sobre hacia dónde se dirige el diseño de LLM. Resumen; DR: Arquitectónicamente, GLM-5 sigue de cerca a DeepSeek-V3 con una afinación menor de mandos. ATENCIÓN: El diputado sustituye a GQA El mayor cambio del GLM-4.7 al GLM-5 es la atención. GLM-4.7 utilizaba Atención de Consulta Agrupada estándar (GQA) con 96 cabezas Q, cabezas de 8 KV y proyecciones separadas q/k/v. GLM-5 elimina todo eso y adopta la Atención Latente Multi-cabeza (MLA) de DeepSeek. En la cadena MLA, las consultas pasan por una proyección en dos etapas al estilo LoRA: oculto -> q_a_proj a rango 2048 -> RMSNorm -> q_b_proj a 64 cabezas * 256 dim. Las claves y valores se comprimen conjuntamente en un único cuello de botella de bajo rango: oculto -> kv_a_proj a rango 512+64 -> dividido en una ruta KV latente y una ruta RoPE. La parte latente se expande de nuevo mediante kv_b_proj a 64 cabezas de (192 nope + 256 valor) dims. Este es exactamente el mismo diseño MLA que DeepSeek-V3. El GLM-5 solo ajusta las dimensiones: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128. El kv_lora_rank (512) y el qk_rope_head_dim (64) son idénticos. Además, no hay sesgo en ninguna parte de la atención (attention_bias por defecto es Falso). Todas las proyecciones (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj y todas las proyecciones de indexadores DSA) están libres de sesgos. Esto es ahora una práctica habitual; entre los principales modelos lanzados en 2025, solo GPT-OSS sigue usando el sesgo de atención. ...