Цього року відбувається багато справді захопливих змін у децентралізованому AI-навчанні. Ось моя думка про те, чому децентралізоване навчання переходить від «неможливого» до «інвестиційного». 🧵👇
Спочатку децентралізоване навчання вважалося неможливим через сучасні протоколи навчання ШІ. Компанії отримували результати завдяки потужному апаратному забезпеченню в дата-центрах — навчання споживчому обладнанню на повільному споживчому інтернеті здавалося божевільним, а аргумент був технічно обґрунтованим.
Однак дуже швидко децентралізоване навчання було продемонстровано на прикладі. Алгоритми «низької комунікації», такі як DiLoCo (розроблений у @GoogleDeepMind), використовувалися компаніями, такими як @PrimeIntellect, @NousResearch та @tplr_ai, для демонстрації моделей, навчених розподілено. Ці алгоритми паралельних даних зберігають всю модель у пам'яті вузла і розбивають дані. У жовтні минулого року @Pluralis продемонстрував перший *модельно-паралельний* запуск, який може розбити трансформатор на його справжні шари для навчання.
Багато людей у традиційному світі ШІ — від @jackclarkSF (співзасновник @AnthropicAI) до @beffjezos та неприбуткових організацій з дослідження ШІ, таких як @EpochAIResearch, звертають увагу на децентралізоване навчання. Epoch підрахувала, що децентралізовані навчальні обчислення зростають у 20 разів з року в рік. Хоча це все ще у тисячу разів менше, ніж централізовані фронтирні маршрути, це скорочує цей розрив у 4 рази швидше.
186