Il backend CUDA di MLXs sta migliorando. È particolarmente piacevole se apprezzi tempi di avvio rapidi. Ma è anche piuttosto veloce in generale. Ecco Qwen3 4B in fp8 che gira sul mio DGX Spark. - Ha elaborato 18,5k token in < 4 secondi - Genera a 32,5 tok/sec con 18,5k di contesto
Inoltre, è super semplice da avviare:
264