PSA: Jika Anda memiliki beberapa macbook yang mendukung RDMA, Anda dapat mengelompokkannya menggunakan @exolabs dan menjalankan model 30B+ pada 70 tok/s melalui thunderbolt5. Paralelisme tensor pada perangkat keras konsumen adalah masalah yang terpecahkan. Anda menyewa GPU yang lebih buruk daripada laptop di sofa Anda. 2X M4 Max (masing-masing 64GB) menjalankan mlx-community/Qwen3-30B-A3B-4bit @ 70 TPS