uh..Qwen3.5-35B-A3B en llama.cpp re-rellena en cada solicitud, ~4x más lento de lo que debería ser. ¿Alguien ha resuelto esto? Pensé que la gente lo había desplegado y usado localmente con éxito. Pero si esto aún no se ha resuelto, el rendimiento es bastante limitado. Causa raíz: las capas GDN son recurrentes → pos_min rastrea toda la secuencia → pero llama.cpp valida la caché usando un umbral SWA que por defecto es 1 para modelos no-SWA → pos_min > 1 siempre verdadero → caché siempre descartada → ¿re-relleno completo cada vez?
De hecho, la imagen de docker (compilaciones del 13 de marzo de 2026) incluye correcciones. No se necesita parcheo manual.
675