Es stellt sich heraus, dass man enorme Mixture-of-Experts auf Mac-Hardware ausführen kann, ohne das gesamte Modell im RAM unterzubringen, indem man eine Teilmenge der Expertengewichte von der SSD für jedes generierte Token streamt - und die Leute finden immer wieder Wege, größere Modelle auszuführen. Kimi 2.5 hat 1T, aber nur 32B aktiv, sodass es in 96GB passt.