Bu yıl merkeziyetsiz yapay zeka eğitiminde gerçekten heyecan verici birçok gelişme yaşanıyor. İşte benim görüşüm, merkezi olmayan eğitimin neden "imkansız"dan "yatırım yapılabilir"e dönüştüğüne dair benim görüşüm. 🧵👇
Başlangıçta, yapay zeka eğitim protokollerinin son teknoloji nedeniyle merkeziyetsiz eğitim imkânsız olarak görülüyordu. Şirketler, yüksek kaliteli veri merkezlerinde yüksek donanımdan sonuç aldı — yavaş tüketici internetinde tüketici donanımı eğitimi çılgınca görünüyordu ve bu argüman teknik olarak iyi gerekçelendirilmişti.
Ancak, çok hızlı bir şekilde merkeziyetsiz eğitim örnek olarak gösterildi. DiLoCo gibi "düşük iletişim" algoritmaları (@GoogleDeepMind'de geliştirildi) @PrimeIntellect, @NousResearch ve @tplr_ai gibi şirketler tarafından dağıtık şekilde eğitilmiş modelleri göstermek için kullanıldı. Bu veri-paralel algoritmalar, tüm modeli düğümün belleğinde tutar ve veriyi parçalar. Geçen yılın Ekim ayında @Pluralis, bir transformatonu eğitim için gerçek katmanlarına ayırabilen ilk *model-paralel* çalışmayı gösterdi.
Geleneksel yapay zeka dünyasında @jackclarkSF (@AnthropicAI'un kurucu ortağı) @beffjezos ve @EpochAIResearch gibi yapay zeka araştırma kuruluşlarına kadar birçok kişi merkezi olmayan eğitime dikkat ediyor. Epoch, merkeziyetsiz eğitim hesaplamasının yıl yıl 20 kat büyüdüğünü hesapladı. Hâlâ merkezi sınır koşularından 1000 kat daha küçük olsa da, bu farkı 4 kat daha yüksek bir hızla kapatıyor.
185