Đã sử dụng autoresearch để làm cho @grail_ai GRPO trainer nhanh hơn 1.8x trên một B200. Tôi đã liên tục trì hoãn việc này trong nhiều tuần vì nút thắt trong khung phân quyền của chúng tôi chủ yếu là giao tiếp. Nhưng sau khi kỹ thuật mà chúng tôi đề xuất, PULSE, làm cho việc đồng bộ trọng số nhanh hơn 100x, bản cập nhật đào tạo tự nó trở thành nút thắt. Ngay cả với một trainer hoàn toàn bất đồng bộ và suy diễn, một trainer chậm làm giảm tốc độ hội tụ. Một nhiệm vụ có thể đã tiêu tốn hàng ngày thời gian của tôi đã chạy song song trong khi tôi làm việc với những thứ khác. Khác với autoresearch ban đầu, nơi mỗi thí nghiệm mất 5 phút, vòng phản hồi của chúng tôi dài hơn nhiều (10-17 phút mỗi epoch + 10-60 phút cho việc cài đặt và thay đổi mã), vì vậy tôi đã điều chỉnh tối thiểu khi nó đi theo hướng xấu để tránh tiêu tốn giờ GPU. Đại lý đã thử rất nhiều thứ mà không thành công. Nhưng, cuối cùng đã tìm ra những thành công: Liger kernel, đóng gói chuỗi, phân bổ động token-budget, và FA4 gốc qua AttentionInterface. Từ 27% đến 47% MFU. 16.7 phút xuống còn 9.2 phút mỗi epoch. Nếu bạn muốn tìm hiểu sâu hơn hoặc đóng góp: Chúng tôi đang tối ưu hóa mọi thứ ở quy mô các nút toàn cầu để làm cho việc đào tạo sau phân quyền nhanh như các nút tập trung. Hãy theo dõi một số mô hình thú vị sẽ ra đời từ nỗ lực này. Chúc mừng!