Tänä vuonna hajautetussa tekoälykoulutuksessa tapahtuu paljon todella jännittäviä kehityksiä. Tässä on oma näkemykseni siitä, miksi hajautettu koulutus siirtyy "mahdottoman" tilanteesta "sijoituskelpoiseksi". 🧵👇
Aluksi hajautettua koulutusta pidettiin mahdottomana tekoälyn koulutusprotokollien huipputason vuoksi. Yritykset saivat tuloksia huippuluokan laitteistosta huippuluokan datakeskuksissa – kulutuslaitteiston koulutus hitaalla kuluttajaninternetillä tuntui hullulta, ja väite oli teknisesti hyvin perusteltu.
Kuitenkin hyvin nopeasti hajautettu koulutus osoitettiin esimerkillä. "Matalan viestinnän" algoritmeja, kuten DiLoCo (kehitetty @GoogleDeepMind:ssa), käyttivät yritykset kuten @PrimeIntellect, @NousResearch ja @tplr_ai demonstroidakseen hajautetusti koulutettuja malleja. Nämä data-rinnakkaisalgoritmit pitävät koko mallin solmun muistissa ja hajottavat datan. Viime vuoden lokakuussa @Pluralis esitteli ensimmäisen *mallin rinnakkaiskäyttöön* suorituksen, joka voi pilkkoa muuntajan varsinaisiin kerroksiin koulutusta varten.
Monet perinteisen tekoälyn maailmassa, kuten @jackclarkSF (@AnthropicAI:n perustaja) @beffjezos ja tekoälytutkimuksen voittoa tavoittelemattomiin järjestöihin kuten @EpochAIResearch, kiinnittävät huomiota hajautettuun koulutukseen. Epoch on laskenut, että hajautettu koulutuslaskenta on kasvanut 20 kertaa vuodesta toiseen. Vaikka se on edelleen 1000 kertaa pienempi kuin keskitetyt rajareitit, se kaventaa tätä eroa nelinkertaisella nopeudella.
188