Le backend CUDA de MLXs s'améliore. C'est particulièrement agréable si vous appréciez des temps de démarrage rapides. Mais c'est aussi assez rapide en général. Voici Qwen3 4B en fp8 fonctionnant sur mon DGX Spark. - 18,5k tokens traités en < 4 secondes - Génère à 32,5 tok/sec avec 18,5k de contexte
Également super simple à mettre en route :
260