Backend CUDA MLXs staje się coraz lepszy. Jest to szczególnie miłe, jeśli doceniasz szybkie czasy uruchamiania. Ale jest również dość szybki ogólnie. Oto Qwen3 4B w fp8 działający na moim DGX Spark. - Przetworzono 18,5 tys. tokenów w < 4 sekundy - Generuje z prędkością 32,5 tok/sec przy 18,5 tys. kontekstu
Również super proste do uruchomienia:
264