Điều này thật sự tuyệt vời! Transformers thực hiện sự chú ý giữa các token, bây giờ hãy tưởng tượng việc thực hiện sự chú ý giữa các lớp nữa. Điều này mang lại hiệu suất tính toán 1.25x, <4% chi phí đào tạo trên mô hình 48B Kimi, +7.5 trên GPQA-Diamond. Kimi đang âm thầm trở thành DeepSeek mới cho sự đổi mới kiến trúc tuyệt vời nhất.