eh... Qwen3.5-35B-A3B en llama.cpp re-pre-relleno en cada petición, ~4 veces más lento de lo que debería. ¿Alguien ha solucionado esto? ¿Pensaba que la gente lo ha desplegado y usado localmente con gusto? Pero si esto aún no se resuelve, la interpretación es bastante limitada. Causa raíz: las capas GDN son recurrentes → pos_min rastrea la secuencia completa → pero llama.cpp valida la caché usando un umbral SWA que por defecto es 1 para modelos no SWA → pos_min > 1 siempre es cierto → la caché siempre descartada → recarga completa cada vez?
En realidad, la imagen de docker (versiones del 13-03-2026) incluye correcciones. No hace falta parcheo manual.
662