DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

eh.. Qwen3.5-35B-A3B på llama.cpp omfyllning på varje förfrågning, ~4 gånger långsammare än det borde vara. Någon som löst detta? Trodde folk gärna har implementerat och använt det lokalt? Men om detta inte är löst än är prestandan ganska begränsad. Rotorsak: GDN-lager är återkommande → pos_min spårar hela sekvensen → men llama.cpp validerar cache med en SWA-tröskel som som standard är 1 för icke-SWA-modeller → pos_min > 1 alltid sant → cache alltid kasserad → full påfyllning varje gång?

Faktiskt innehåller docker-bilden (2026-03-13-byggen) fixar. Ingen manuell patchning behövs.

689

Topp

Rankning

Favoriter