Os benchmarks MLX já estão disponíveis e eu não esperava esses resultados. o M5 Max supera o M3 Ultra de longe, apesar de ter mais núcleos de GPU e maior largura de banda de memória. O preenchimento ligado ao cálculo é muito mais rápido (até 2x) graças aos novos aceleradores neurais M5, mas também a decodificação limitada por memória é mais rápida, desde que você use modelos MoE em vez de modelos densos. O M5 Ultra vai ser uma fera. Mal posso esperar para ver esses números