Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
eh... Qwen3.5-35B-A3B en llama.cpp re-pre-relleno en cada petición, ~4 veces más lento de lo que debería. ¿Alguien ha solucionado esto? ¿Pensaba que la gente lo ha desplegado y usado localmente con gusto? Pero si esto aún no se resuelve, la interpretación es bastante limitada.
Causa raíz: las capas GDN son recurrentes → pos_min rastrea la secuencia completa → pero llama.cpp valida la caché usando un umbral SWA que por defecto es 1 para modelos no SWA → pos_min > 1 siempre es cierto → la caché siempre descartada → recarga completa cada vez?

En realidad, la imagen de docker (versiones del 13-03-2026) incluye correcciones. No hace falta parcheo manual.

662
Populares
Ranking
Favoritas
