MLXs CUDA-Backend wird besser. Es ist besonders schön, wenn man schnelle Startzeiten schätzt. Aber es ist auch im Allgemeinen ziemlich schnell. Hier ist Qwen3 4B in fp8, das auf meinem DGX Spark läuft. - Verarbeitet 18,5k Tokens in < 4 Sekunden - Generiert mit 32,5 Tok/Sek bei 18,5k Kontext
Auch super einfach, um loszulegen:
257