Ya están listos los benchmarks de MLX y no esperaba estos resultados. el M5 Max supera con creces al M3 Ultra, a pesar de tener más núcleos de GPU y mayor ancho de banda de memoria. El prerelleno basado en computación es mucho más rápido (hasta 2x) gracias a los nuevos aceleradores neuronales M5, pero también la decodificación limitada por memoria es más rápida, siempre que uses modelos MoE en lugar de modelos densos. El M5 Ultra será una bestia. Estoy deseando ver esos números