MLX:s CUDA-backend blir bättre. Det är särskilt trevligt om du uppskattar snabba starttider. Men det är också ganska snabbt i allmänhet. Här är Qwen3 4B i fp8 som körs på min DGX Spark. - Behandlade 18,5k tokens på < 4 sekunder - Genererar med 32,5 tok/s med 18,5k kontext
Också superenkelt att komma igång:
262