Os benchmarks do MLX estão disponíveis e eu não esperava esses resultados. O M5 Max supera o M3 Ultra, apesar de ter mais núcleos de GPU e maior largura de banda de memória. O pré-preenchimento limitado por computação é muito mais rápido (até 2x) graças aos novos Aceleradores Neurais M5, mas também a decodificação limitada por memória é mais rápida, desde que você use modelos MoE em vez de modelos densos. O M5 Ultra será uma fera. Mal posso esperar para ver esses números.