E atât de tare! Transformers fac atenție între tokenuri, acum imaginează-ți că faci atenție și pe straturi. Aceasta oferă o eficiență de calcul de 1,25x, <4% overhead de antrenare pe modelul Kimi 48B și +7,5 pe GPQA-Diamond. Kimi devine discret noul DeepSeek pentru cea mai tare inovație arhitecturală.