DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

Otomatik araştırma kullanarak @grail_ai GRPO eğitmeni tek bir B200'de 1.8 kat hızlandırdım. Bunu haftalarca erteledim çünkü merkeziyetsiz çerçevemizdeki darboğaz esas olarak iletişimdi. Ama önerdiğimiz teknik PULSE, ağırlık senkronizasyonunu 100 kat hızlandırdıktan sonra, antrenman güncellemesi kendisi darboğaz haline geldi. Tam asenkron bir eğitmen ve çıkarım yapsanız bile, yavaş bir eğitmen yakınsama hızını öldürür. Günlerimi alabilecek bir görev, başka işlerle çalışırken paralel olarak devam ediyordu. Orijinal otomatik araştırmanın aksine, her deney 5 dakika sürerken, geri bildirim döngümüz çok daha uzun (epoch başına 10-17 dakika + kurulum ve kod değişiklikleri için 10-60 dakika), bu yüzden kötü yönlere giderken GPU saatlerini harcamamak için minimum yönlendirme yaptım. Ajan pek çok şey denedi ama başarısız oldu. Ama sonunda kazançları buldum: Liger çekirdeği, dizi paketleme, token bütçeli dinamik toplu çalışma ve AttentionInterface üzerinden yerel FA4. %27 ile %47 MFU. Epoch başına 16,7 dakika ile 9,2 dakika arasında. Daha derinlere inmek veya katkıda bulunmak isterseniz: Her şeyi küresel düğümler ölçeğinde optimize ediyoruz, böylece merkeziyetsiz post-eğitim süreci merkezi olanlar kadar hızlı yapılıyor. Bu çalışmadan çıkan bazı havalı modelleri izlemeye devam edin. Şerefe!

En İyiler

Sıralama

Takip Listesi