I benchmark di MLX sono arrivati e non mi aspettavo questi risultati. L'M5 Max supera di gran lunga l'M3 Ultra, nonostante abbia più core GPU e una larghezza di banda della memoria più alta. Il prefill limitato dalla computazione è molto più veloce (fino a 2 volte) grazie ai nuovi Acceleratori Neurali M5, ma anche la decodifica limitata dalla memoria è più veloce, a patto di utilizzare modelli MoE invece di modelli densi. L'M5 Ultra sarà una bestia. Non vedo l'ora di vedere quei numeri.