Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
uh... Qwen3.5-35B-A3B em llama.cpp preenchimento em cada requisição, ~4 vezes mais lento do que deveria ser. Alguém já resolveu isso? Achava que as pessoas já tinham implantado e usado localmente com prazer? Mas se isso ainda não for resolvido, a performance é bastante limitada.
Causa raiz: as camadas GDN são recorrentes → pos_min acompanha a sequência completa → mas llama.cpp valida o cache usando um limiar SWA que padrão é 1 para modelos não-SWA → pos_min > 1 sempre é verdadeiro → cache sempre descartado → recarga completa toda vez?

Na verdade, a imagem do docker (builds de 13-03-2026) inclui correções. Não precisa de patches manuais.

660
Melhores
Classificação
Favoritos
