MLXs CUDA-backend wordt beter. Het is vooral fijn als je waarde hecht aan snelle opstarttijden. Maar het is ook over het algemeen vrij snel. Hier is Qwen3 4B in fp8 die draait op mijn DGX Spark. - Verwerkt 18,5k tokens in < 4 seconden - Genereert met 32,5 tok/sec met 18,5k context
Ook super eenvoudig om aan de slag te gaan:
256