DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Informe impresionante del equipo de Kimi: Residuales de Atención Las conexiones residuales hicieron que los Transformers profundos fueran entrenables. Pero también obligan a un crecimiento incontrolado del estado oculto con la profundidad. Este trabajo propone una alternativa más limpia. Introduce los Residuales de Atención, que reemplazan la acumulación residual fija con atención softmax sobre las salidas de la capa anterior. En lugar de sumar ciegamente todo, cada capa recupera selectivamente las representaciones anteriores que realmente necesita. Para mantener esto práctico a gran escala, añaden una versión por bloques que comprime las capas en resúmenes de bloques, recuperando la mayor parte de las ganancias con un mínimo de sobrecarga del sistema. ¿Por qué es importante? Los caminos residuales apenas han cambiado en los LLM modernos, a pesar de que gobiernan cómo se mueve la información a través de la profundidad. Este artículo muestra que hacer que la mezcla dependa del contenido mejora las leyes de escalado, coincide con una línea base entrenada con 1.25x más computación, aumenta GPQA-Diamond en +7.5 y HumanEval en +3.1, mientras mantiene la sobrecarga de inferencia por debajo del 2%. Artículo: Aprende a construir agentes de IA efectivos en nuestra academia:

Parte superior

Clasificación

Favoritos