O backend CUDA do MLXs está a melhorar. É especialmente agradável se você aprecia tempos de inicialização rápidos. Mas também é bastante rápido em geral. Aqui está o Qwen3 4B em fp8 a correr no meu DGX Spark. - Processou 18,5k tokens em < 4 segundos - Gera a 32,5 tok/sec com 18,5k de contexto
Também é super simples de começar a funcionar:
272