Tämä on niin hemmetin siistiä! Transformerit tekevät huomion tokenien yli, kuvittele nyt myös tarkkaavaisuutta kerrosten yli. Tämä tarjoaa 1,25-kertaisen laskentatehokkuuden, <4 % koulutuskuormituksen 48B Kimi -mallissa, +7,5 GPQA-Diamondissa. Kimi on hiljaisesti muuttumassa uudeksi DeepSeekiksi siisteimmälle arkkitehtuuriinnovaatiolle.