¡Esto es increíblemente genial! Los Transformers hacen atención a través de los tokens, ahora imagina hacer atención también entre capas. Esto ofrece una eficiencia de cómputo de 1,25 veces superior, <4% de sobrecarga de entrenamiento en el modelo Kimi 48B y +7,5 en GPQA-Diamond. Kimi se está convirtiendo discretamente en el nuevo DeepSeek de la innovación arquitectónica más interesante.