uh... Qwen3.5-35B-A3B em llama.cpp preenchimento em cada requisição, ~4 vezes mais lento do que deveria ser. Alguém já resolveu isso? Achava que as pessoas já tinham implantado e usado localmente com prazer? Mas se isso ainda não for resolvido, a performance é bastante limitada. Causa raiz: as camadas GDN são recorrentes → pos_min acompanha a sequência completa → mas llama.cpp valida o cache usando um limiar SWA que padrão é 1 para modelos não-SWA → pos_min > 1 sempre é verdadeiro → cache sempre descartado → recarga completa toda vez?
Na verdade, a imagem do docker (builds de 13-03-2026) inclui correções. Não precisa de patches manuais.
660