Det här är så jäkla häftigt! Transformers gör uppmärksamhet över tokens, föreställ dig nu att göra uppmärksamhet över lager också. Detta ger en beräkningseffektivitet på 1,25 gånger, <4 % träningsöverhead på 48B Kimi-modellen, +7,5 på GPQA-Diamond. Kimi håller tyst på att bli den nya DeepSeek för den häftigaste arkitekturinnovationen.