Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La exploración fronteriza de las arquitecturas LLM ha convergido en gran medida.
He revisado el código de HuggingFace transformers para el recién lanzado GLM-5 de @Zai_org (zai-org/GLM-5).
Aquí tienes un desglose arquitectónico detallado y lo que nos dice sobre hacia dónde se dirige el diseño de LLM.
Resumen; DR: Arquitectónicamente, GLM-5 sigue de cerca a DeepSeek-V3 con una afinación menor de mandos.
ATENCIÓN: El diputado sustituye a GQA
El mayor cambio del GLM-4.7 al GLM-5 es la atención.
GLM-4.7 utilizaba Atención de Consulta Agrupada estándar (GQA) con 96 cabezas Q, cabezas de 8 KV y proyecciones separadas q/k/v.
GLM-5 elimina todo eso y adopta la Atención Latente Multi-cabeza (MLA) de DeepSeek.
En la cadena MLA, las consultas pasan por una proyección en dos etapas al estilo LoRA:
oculto -> q_a_proj a rango 2048 -> RMSNorm -> q_b_proj a 64 cabezas * 256 dim.
Las claves y valores se comprimen conjuntamente en un único cuello de botella de bajo rango:
oculto -> kv_a_proj a rango 512+64 -> dividido en una ruta KV latente y una ruta RoPE.
La parte latente se expande de nuevo mediante kv_b_proj a 64 cabezas de (192 nope + 256 valor) dims.
Este es exactamente el mismo diseño MLA que DeepSeek-V3.
El GLM-5 solo ajusta las dimensiones: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128.
El kv_lora_rank (512) y el qk_rope_head_dim (64) son idénticos.
Además, no hay sesgo en ninguna parte de la atención (attention_bias por defecto es Falso).
Todas las proyecciones (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj y todas las proyecciones de indexadores DSA) están libres de sesgos.
Esto es ahora una práctica habitual; entre los principales modelos lanzados en 2025, solo GPT-OSS sigue usando el sesgo de atención.
...
Populares
Ranking
Favoritas
