Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Giới thiệu 𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔: Suy nghĩ lại về việc tổng hợp theo chiều sâu.
Các kết nối residual từ lâu đã dựa vào việc tích lũy cố định, đồng nhất. Được truyền cảm hứng từ sự đối lập giữa thời gian và chiều sâu, chúng tôi giới thiệu Attention Residuals, thay thế sự lặp lại theo chiều sâu tiêu chuẩn bằng sự chú ý học được, phụ thuộc vào đầu vào qua các lớp trước đó.
🔹 Cho phép các mạng chọn lọc truy xuất các biểu diễn trong quá khứ, tự nhiên giảm thiểu sự pha loãng và sự phát triển của trạng thái ẩn.
🔹 Giới thiệu Block AttnRes, phân chia các lớp thành các khối nén để làm cho sự chú ý giữa các lớp trở nên thực tiễn ở quy mô lớn.
🔹 Đóng vai trò như một sự thay thế hiệu quả, cho thấy lợi thế tính toán 1.25x với độ trễ suy diễn không đáng kể (<2%).
🔹 Được xác thực trên kiến trúc Kimi Linear (48B tổng, 3B tham số được kích hoạt), mang lại lợi ích hiệu suất nhất quán cho các tác vụ hạ nguồn.
🔗Báo cáo đầy đủ:

Các thí nghiệm về quy luật mở rộng cho thấy một lợi thế tính toán nhất quán 1.25× trên các kích thước mô hình khác nhau.

Phân tích động lực đào tạo cho thấy cách mà AttnRes tự nhiên giảm thiểu sự gia tăng độ lớn của trạng thái ẩn và mang lại phân phối gradient đồng nhất hơn qua chiều sâu.

100
Hàng đầu
Thứ hạng
Yêu thích
