DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Menggunakan riset otomatis untuk membuat pelatih GRPO @grail_ai 1,8x lebih cepat pada satu B200. Saya terus menunda ini selama berminggu-minggu karena kemacetan dalam kerangka kerja terdesentralisasi kami terutama adalah komunikasi. Tetapi setelah teknik yang kami usulkan, PULSE, membuat sinkronisasi berat 100x lebih cepat, pembaruan pelatihan itu sendiri menjadi hambatan. Bahkan dengan pelatih dan inferensi yang sepenuhnya asinkron, pelatih lambat membunuh kecepatan konvergensi. Tugas yang bisa memakan waktu saya berhari-hari berjalan secara paralel sementara saya mengerjakan hal-hal lain. Tidak seperti penelitian otomatis asli, di mana setiap eksperimen berdurasi 5 menit, loop umpan balik kami jauh lebih lama (10-17 menit per zaman + 10-60 menit instalasi dan perubahan kode), jadi saya melakukan kemudi minimal ketika menuju ke arah yang buruk untuk menghindari membakar jam GPU. Agen itu mencoba begitu banyak hal yang gagal. Tapi, akhirnya menemukan kemenangan: kernel Liger, pengepakan urutan, batching dinamis anggaran token, dan FA4 asli melalui AttentionInterface. 27% hingga 47% MFU. 16,7 menit hingga 9,2 menit per zaman. Jika Anda ingin menggali lebih dalam atau berkontribusi: Kami mengoptimalkan semuanya pada skala node global untuk membuat pasca-pelatihan terdesentralisasi secepat yang terpusat. Nantikan beberapa model keren yang keluar dari upaya ini. Bersulang!

Teratas

Peringkat

Favorit