¡Esto es increíble! Los Transformers hacen atención a través de tokens, ahora imagina hacer atención a través de capas también. Esto proporciona una eficiencia de computación de 1.25x, <4% de sobrecarga de entrenamiento en el modelo Kimi de 48B, +7.5 en GPQA-Diamond. Kimi se está convirtiendo silenciosamente en el nuevo DeepSeek para la innovación arquitectónica más genial.