Isto é tão incrivelmente fixe! Os Transformers fazem atenção entre tokens, agora imagina fazer atenção entre camadas também. Isto proporciona uma eficiência de computação de 1,25x, <4% de sobrecarga de treino no modelo Kimi de 48B, +7,5 no GPQA-Diamond. O Kimi está silenciosamente a tornar-se o novo DeepSeek para a mais fixe inovação em arquitetura.