Det viser seg at du kan kjøre enorme Mixture-of-Experts på Mac-maskinvare uten å få plass til hele modellen i RAM ved å strømme et delsett av ekspertvekter fra SSD for hver generert token – og folk finner stadig måter å kjøre større modeller på Kimi 2.5 er 1 T, men bare 32B aktiv, så den rommer 96GB