Tôi đã thực hiện 71 thí nghiệm nhanh cho 500 trong số 13.000 bước cho thử thách của OpenAI 1. Mixture of Experts là NGƯỜI THẮNG CUỐI CÙNG (rất bất ngờ vì điều này không nên xảy ra với các LLM nhỏ) > Số lượng chuyên gia là quan trọng nhất. 4 (tốt nhất) > 3 >> 2. 2. Nhúng UNTIED hoạt động, nhúng tied là thảm họa 3. Tích chập theo chiều sâu - NGÕ CỤT Những hiểu biết: 1. MOE 4 chuyên gia + leaky ReLU -> -0.048 BPB, người chiến thắng rõ ràng 2. Nhúng phân tách không bị ràng buộc (bn128) -> -0.031 BPB, đáng để kết hợp với MOE 3. Kết hợp MOE + QAT -> giữ chất lượng đã định lượng cho việc nộp các ngõ cụt 1. Tích chập theo chiều sâu -> mọi biến thể đều gây hại, các hạt lớn hơn gây hại nhiều hơn 2. Nhúng phân tách bị ràng buộc -> thảm họa, đặc biệt là ở các nút thắt nhỏ 3. Chia sẻ trọng số -> không cạnh tranh với MOE về chất lượng 4. Kết hợp Conv + bất kỳ thứ gì — làm tăng thêm thiệt hại Các bước tiếp theo 1. Xác thực MOE 4e + leaky ở 2000-5000 bước, nhiều hạt giống 2. Kiểm tra MOE 4e + leaky + bn128 không bị ràng buộc — hai chiến thắng lớn nhất có thể kết hợp 3. Chạy đầy đủ (13780 bước) của sự kết hợp tốt nhất để xem liệu nó có vượt qua bảng xếp hạng 1.2244 BPB không 71 thí nghiệm, 3 GPU, ~500 bước mỗi thí nghiệm. Vuk Rosić...