これは本当にかっこいい! トランスフォーマーはトークン間で注意を引くのですが、レイヤー間でも注意を取ることを想像してください。 これにより、48B Kimiモデルでは1.25倍の計算効率が<4%、GPQA-Diamondでは+7.5%のトレーニングオーバーヘッドを実現しています。 キミは静かに、最もかっこいいアーキテクチャ革新のための新たなDeepSeekとなりつつあります。