Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
eh.. Qwen3.5-35B-A3B på llama.cpp omfyllning på varje förfrågning, ~4 gånger långsammare än det borde vara. Någon som löst detta? Trodde folk gärna har implementerat och använt det lokalt? Men om detta inte är löst än är prestandan ganska begränsad.
Rotorsak: GDN-lager är återkommande → pos_min spårar hela sekvensen → men llama.cpp validerar cache med en SWA-tröskel som som standard är 1 för icke-SWA-modeller → pos_min > 1 alltid sant → cache alltid kasserad → full påfyllning varje gång?

Faktiskt innehåller docker-bilden (2026-03-13-byggen) fixar. Ingen manuell patchning behövs.

689
Topp
Rankning
Favoriter
