MLXのCUDAバックエンドは良くなっています。 特に起動時間が早い方には特に便利です。しかし、全体的にかなり速いです。 こちらは私のDGX Sparkで動作しているQwen3 4Bのfp8です。 - 4秒間で18.5kトークンを処理< - 18.5kコンテキストで32.5 tok/secで生成
また、起動もとても簡単です:
258