Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
uh..Qwen3.5-35B-A3B en llama.cpp re-rellena en cada solicitud, ~4x más lento de lo que debería ser. ¿Alguien ha resuelto esto? Pensé que la gente lo había desplegado y usado localmente con éxito. Pero si esto aún no se ha resuelto, el rendimiento es bastante limitado.
Causa raíz: las capas GDN son recurrentes → pos_min rastrea toda la secuencia → pero llama.cpp valida la caché usando un umbral SWA que por defecto es 1 para modelos no-SWA → pos_min > 1 siempre verdadero → caché siempre descartada → ¿re-relleno completo cada vez?

De hecho, la imagen de docker (compilaciones del 13 de marzo de 2026) incluye correcciones. No se necesita parcheo manual.

675
Parte superior
Clasificación
Favoritos
