Si scopre che puoi eseguire enormi Mixture-of-Experts su hardware Mac senza dover caricare l'intero modello in RAM, trasmettendo un sottoinsieme dei pesi degli esperti da SSD per ogni token generato - e le persone continuano a trovare modi per eseguire modelli più grandi. Kimi 2.5 è 1T, ma solo 32B attivi, quindi si adatta a 96GB