CUDA бекенд MLX стає кращим. Особливо приємно, якщо цінуєш швидкий старт. Але загалом він досить швидкий. Ось Qwen3 4B у fp8, який працює на моєму DGX Spark. - Оброблено 18,5 тисяч токенів за < 4 секунди - Генерує зі швидкістю 32,5 ток/с при контексті 18,5 тис.
Також дуже просто запустити і запустити:
263