Okazuje się, że można uruchomić ogromne Mixture-of-Experts na sprzęcie Mac bez konieczności ładowania całego modelu do RAM, strumieniując podzbiór wag ekspertów z SSD dla każdego generowanego tokena - a ludzie wciąż znajdują sposoby na uruchamianie większych modeli Kimi 2.5 ma 1T, ale tylko 32B aktywnych, więc mieści się w 96GB