Isso é muito legal! Transformers fazem atenção entre tokens, agora imagine fazer atenção entre camadas também. Isso proporciona uma eficiência de computação de 1,25x, <4% de sobrecarga de treinamento no modelo Kimi 48B e +7,5 no GPQA-Diamond. Kimi está silenciosamente se tornando o novo DeepSeek pela inovação arquitetônica mais incrível.