Relatório de Banger da equipe Kimi: Atenção Resíduos Conexões residuais tornavam Transformadores profundos treináveis. Mas também forçam um crescimento descontrolado do estado oculto com profundidade. Essa obra propõe uma alternativa mais limpa. Ele introduz os Résidus de Atenção, que substituem o acúmulo residual fixo por atenção softmax sobre as saídas das camadas anteriores. Em vez de somar tudo cegamente, cada camada recupera seletivamente as representações anteriores que realmente precisa. Para manter isso prático em escala, eles adicionam uma versão em bloco que comprime camadas em resumos de blocos, recuperando a maior parte dos ganhos com o mínimo de overhead dos sistemas. Por que isso importa? Caminhos residuais mal mudaram nos LLMs modernos, embora eles governem como a informação se move pela profundidade. Este artigo mostra que tornar a mistura dependente do conteúdo melhora as leis de escalabilidade, iguala uma linha de base treinada com 1,25x mais de computação, aumenta o GPQA-Diamond em +7,5 e o HumanEval em +3,1, mantendo a sobrecarga de inferência abaixo de 2%. Papel: Aprenda a construir agentes de IA eficazes em nossa academia: