Это так чертовски круто! Трансформеры выполняют внимание по токенам, а теперь представьте, что внимание можно выполнять и по слоям. Это обеспечивает 1,25-кратную эффективность вычислений, <4% накладных расходов на обучение на модели Kimi с 48B, +7,5 на GPQA-Diamond. Kimi тихо становится новым DeepSeek для самой крутой архитектурной инновации.