Mỗi mô hình nền tảng mà bạn từng sử dụng đều có cùng một lỗi. Nó vừa được sửa. Kể từ năm 2015, mọi mạng sâu đều được xây dựng theo cùng một cách: mỗi lớp thực hiện một số tính toán, cộng kết quả của nó vào tổng đang chạy, và chuyển tiếp nó. Đơn giản. Nhưng có một vấn đề, đến lớp thứ 100, tín hiệu từ bất kỳ lớp nào đơn lẻ đều bị chôn vùi dưới tổng của mọi thứ khác. Mỗi lớp mới ngày càng trở nên ít quan trọng hơn. Không ai sửa điều này vì nó hoạt động đủ tốt. Moonshot AI vừa thay đổi điều đó. Phương pháp mới của họ, Attention Residuals, cho phép mỗi lớp nhìn lại tất cả các lớp trước đó và chọn ra những lớp nào thực sự quan trọng ngay bây giờ. Thay vì một tổng chạy mù quáng, bạn có được việc truy xuất có chọn lọc. Phép ẩn dụ: hãy tưởng tượng viết một bài luận mà mọi bản nháp đều được gộp vào một tài liệu tự động. Đến bản nháp thứ 50, những chỉnh sửa mới nhất của bạn trở nên vô hình. AttnRes cho phép bạn giữ mỗi bản nháp riêng biệt và rút ra từ bất kỳ bản nào bạn cần. Điều này sửa chữa: 1. Các lớp sâu hơn không còn bị chìm 2. Đào tạo trở nên ổn định hơn trên toàn bộ mạng 3. Mô hình sử dụng độ sâu của nó một cách hiệu quả hơn Để thực hiện điều này một cách thực tiễn ở quy mô lớn, họ nhóm các lớp thành các khối và chú ý đến các tóm tắt khối thay vì từng lớp một. Chi phí thêm khi suy diễn: dưới 2%. Kết quả: Giảm 25% lượng tính toán để đạt được cùng một hiệu suất. Được thử nghiệm trên mô hình 48B tham số. Giữ nguyên trên các kích thước....