Бэкенд MLXs CUDA становится лучше. Это особенно приятно, если вы цените быстрое время запуска. Но он также довольно быстр в общем. Вот Qwen3 4B в fp8, работающий на моем DGX Spark. - Обработано 18,5k токенов за < 4 секунды - Генерирует со скоростью 32,5 токенов/сек с контекстом 18,5k
Также очень просто начать и запустить:
255