Dette er så utrolig kult! Transformers gjør oppmerksomhet på tvers av tokens, så tenk deg å gjøre oppmerksomhet på tvers av lag også. Dette gir en beregningseffektivitet på 1,25 ganger, <4 % treningsoverhead på 48B Kimi-modellen, +7,5 på GPQA-Diamond. Kimi blir stille og rolig den nye DeepSeek for den kuleste arkitekturinnovasjonen.