C'est tellement génial ! Les Transformers font de l'attention à travers les tokens, maintenant imaginez faire de l'attention à travers les couches aussi. Cela offre une efficacité de calcul de 1,25x, <4% de surcharge d'entraînement sur le modèle Kimi de 48B, +7,5 sur GPQA-Diamond. Kimi devient discrètement le nouveau DeepSeek pour l'innovation architecturale la plus cool.