MLX'in CUDA arka planı giderek daha iyi oluyor. Hızlı başlangıç sürelerini takdir ediyorsanız özellikle güzel. Ama genel olarak oldukça hızlı. İşte DGX Spark cihazımda FP8 içinde çalışan Qwen3 4B. - 18,5k jetonu < 4 saniyede işledi - 18.5k bağlamla 32.5 tok/s. hızında üretir
Ayrıca çalıştırmak için çok basit:
253