DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

MLX:s CUDA-backend blir bättre. Det är särskilt trevligt om du uppskattar snabba starttider. Men det är också ganska snabbt i allmänhet. Här är Qwen3 4B i fp8 som körs på min DGX Spark. - Behandlade 18,5k tokens på < 4 sekunder - Genererar med 32,5 tok/s med 18,5k kontext

Också superenkelt att komma igång:

262

Topp

Rankning

Favoriter