Informe de los bangers del equipo Kimi: Atención a los residuales Las conexiones residuales hacían que los transformadores profundos fueran entrecables. Pero también obligan a un crecimiento descontrolado de estados ocultos con profundidad. Esta obra propone una alternativa más limpia. Introduce los Residuos de Atención, que sustituyen la acumulación fija de residuos por una atención softmax sobre las salidas de capas anteriores. En lugar de sumar todo a ciegas, cada capa recupera selectivamente las representaciones anteriores que realmente necesita. Para mantener esto práctico a gran escala, añaden una versión por bloques que comprime capas en resúmenes de bloques, recuperando la mayor parte de las ganancias con una carga mínima de sistema. ¿Por qué importa? Los caminos residuales apenas han cambiado en los LLM modernos, aunque regulan cómo se mueve la información a través de la profundidad. Este artículo muestra que hacer la mezcla dependiente del contenido mejora las leyes de escalado, iguala una línea base entrenada con 1,25 veces más de cálculo, mejora GPQA-Diamond en +7,5 y HumanEval en +3,1, manteniendo la sobrecarga de inferencia por debajo del 2%. Papel: Aprende a crear agentes de IA efectivos en nuestra academia: