Це просто неймовірно круто! Трансформери роблять увагу через токени, тепер уявіть, що вони роблять увагу на різних шарах. Це забезпечує 1,25x обчислювальну ефективність, <4% накладних витрат на навчання на моделі 48B Kimi та +7,5% на GPQA-Diamond. Kimi тихо стає новим DeepSeek для найкрутіших архітектурних інновацій.