AVISO: Se você tem vários macbooks que suportam RDMA, pode agrupá-los usando @exolabs e executar modelos de 30B+ a 70 tok/s via thunderbolt5. O paralelismo de tensores em hardware de consumo é um problema resolvido. Você está alugando GPUs que são piores do que o laptop no seu sofá. 2X M4 Max (64GB cada) rodando mlx-community/Qwen3-30B-A3B-4bit a 70 TPS