هناك الكثير من التطورات المثيرة التي تحدث في تدريب الذكاء الاصطناعي اللامركزي هذا العام. إليكم وجهة نظري حول سبب انتقال التدريب اللامركزي من "مستحيل" إلى "قابل للاستثمار". 🧵👇
في البداية، كان يعتبر التدريب اللامركزي مستحيلا نظرا لحديث بروتوكولات تدريب الذكاء الاصطناعي. كانت الشركات تحصل على نتائج من أجهزة عالية الجودة في مراكز البيانات المتقدمة -- التدريب على أجهزة المستهلك على الإنترنت الاستهلاكي البطيء بدا جنونيا، وكان الحجة منطقية تقنيا.
ومع ذلك، تم إثبات التدريب اللامركزي بسرعة من خلال المثال. استخدمت شركات مثل @PrimeIntellect و@NousResearch و@tplr_ai خوارزميات "الاتصال المنخفض" مثل DiLoCo (التي طورت في @GoogleDeepMind) لعرض نماذج مدربة بطريقة موزعة. تحتفظ هذه الخوارزميات المتوازية بالبيانات بالنموذج بالكامل في ذاكرة العقدة وتفكك البيانات. في أكتوبر من العام الماضي، عرض @Pluralis أول عملية *نموذج-متوازية*، يمكنها تفكيك المحول إلى طبقاته الفعلية للتدريب.
الكثير من الناس في عالم الذكاء الاصطناعي التقليدي من @jackclarkSF (المؤسس المشارك ل @AnthropicAI) إلى @beffjezos إلى منظمات غير ربحية في أبحاث الذكاء الاصطناعي مثل @EpochAIResearch، يركزون على التدريب اللامركزي. لقد حسبت شركة Epoch أن الحوسبة اللامركزية للتدريب نمت 20 مرة على سنة بعد عام. بينما لا تزال أصغر بألف مرة من المحطات المركزية في فرونتير السرية، إلا أنها تقترب من هذه الفجوة بمعدل 4 أضعاف.
‏‎206‏