🔥 Nettopp. Templar endret måten jeg tenker på AI-infrastruktur. Jeg forventet ikke mye av desentralisert AI, men å se @tplr_ai trene en 72B-modell på 1.1T-tokens over ~70 tillatelsesfrie noder på Bittensor ($TAO). Det alene er allerede uvanlig, men det som virkelig fikk meg til å endre mening var hvordan de fikk det til å fungere. - På denne skalaen er opplæringen begrenset av koordinering. Vanligvis sender du ~280 GB data per synkroniseringssteg mellom noder, noe som gjør desentralisert trening i praksis død ved ankomst. - @tplr_ai komprimerte dette til ~2,2 GB og reduserte synkroniseringsfrekvensen kraftig ved hjelp av SparseLoCo. Når jeg ser på det, ser jeg at de fjerner kjerneflaskehalsen som drepte alle tidligere forsøk 🤯. Derfor mener jeg at det å kalle dette et DeepSeek-øyeblikk faktisk ikke er overdrevet. DeepSeek viste at modeller kan trenes billigere. Templar viser at de kan trenes uten sentral koordinering i det hele tatt. -> Det er to veldig forskjellige retninger, og denne føles strukturelt vanskeligere å konkurrere med. Et annet signal jeg ikke ignorerer: når folk som Anthropics Jack Clark offentlig fremstiller det som ekte infrastruktur: - Etter min erfaring kommer den typen validering vanligvis etter at noe allerede fungerer, ikke før. - Dette er fortsatt fortrening. Den virkelige fordelen i AI kommer fra post-trening, RLHF, alignment-løkker, der modeller faktisk blir nyttige. Templar flytter dit neste med Grail, og for meg er det den virkelige testen. Hvis de kan desentralisere det laget også, snakker vi ikke lenger om desentralisert databehandling, men om en fullstendig tillatelsesfri AI-produksjonspipeline. Det som får Templar til å skille seg ut for meg, er timingen og retningen de valgte. 1/ De gikk etter koordinering når hele AI-industrien stille og rolig nærmer seg skaleringsgrenser. - Det er et helt annet spill, og vanligvis er det de som angriper begrensninger, ikke trender, som betyr noe senere. 2/ En annen katalysator jeg ser er det tillatelsesløse designet. - De fleste desentraliserte AI-systemer låser fortsatt deltakelse på en eller annen måte, noe som dreper nettverkseffekter tidlig. - Templar ble helt åpen fra starten, noe som betyr at hvis denne modellen fungerer, skalerer den ikke bare lineært, men bygger seg sammen med flere bidragsytere, mer eksperimentering, flere kanttilfeller som løses parallelt. I tillegg forteller det meg at de bygger mot post-trening (RL-laget) at de forstår hvor den virkelige verdien ligger. Forhåndsopplæring får oppmerksomhet, men ettertrening er der modellene blir brukbare, klebrige og kan tjene penger på. Hvis de gjennomfører her, begynner de å eie en del av intelligenslaget selv. 3/ Min spådom basert på dette: På kort sikt vil de fleste fortsatt undervurdere det, fordi modellkvalitetsgapet versus sentraliserte laboratorier vil være det enkle argumentet. Men over tid tror jeg Templar blir: - et backend-lag for åpen AI-utvikling. - et koordineringsnettverk for distribuert databehandling. - og til slutt et marked for intelligensforbedring. Ikke dominerende over natten, men stille innfelt overalt. Og hvis det skjer, kommer fordelen av å bli systemet som alle kan bygge videre på når de ikke vil stole på @OpenAI i det hele tatt.
templar
templar20. mars, 04:01
På @theallinpod denne uken spurte @chamath @nvidia administrerende direktør Jensen Huang om desentralisert AI-trening, og kalte vår Covenant-72B-kjøring «en ganske vill teknisk prestasjon.» En korreksjon: det er 72 milliarder parametere, ikke fire. Trent uten tillatelse på tvers av 70+ bidragsytere på vanlig internett. Den største modellen noensinne forhåndstrent på fullstendig desentralisert infrastruktur. Jensens svar er også verdt å høre.
@tplr_ai Chads gir mye verdifull informasjon om Bittensor-økosystemet: @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @andyyy @eliz883
Karamata_ 💎
Karamata_ 💎19 timer siden
🔥 Nettopp. Templar endret måten jeg tenker på AI-infrastruktur. Jeg forventet ikke mye av desentralisert AI, men å se @tplr_ai trene en 72B-modell på 1.1T-tokens over ~70 tillatelsesfrie noder på Bittensor ($TAO). Det alene er allerede uvanlig, men det som virkelig fikk meg til å endre mening var hvordan de fikk det til å fungere. - På denne skalaen er opplæringen begrenset av koordinering. Vanligvis sender du ~280 GB data per synkroniseringssteg mellom noder, noe som gjør desentralisert trening i praksis død ved ankomst. - @tplr_ai komprimerte dette til ~2,2 GB og reduserte synkroniseringsfrekvensen kraftig ved hjelp av SparseLoCo. Når jeg ser på det, ser jeg at de fjerner kjerneflaskehalsen som drepte alle tidligere forsøk 🤯. Derfor mener jeg at det å kalle dette et DeepSeek-øyeblikk faktisk ikke er overdrevet. DeepSeek viste at modeller kan trenes billigere. Templar viser at de kan trenes uten sentral koordinering i det hele tatt. -> Det er to veldig forskjellige retninger, og denne føles strukturelt vanskeligere å konkurrere med. Et annet signal jeg ikke ignorerer: når folk som Anthropics Jack Clark offentlig fremstiller det som ekte infrastruktur: - Etter min erfaring kommer den typen validering vanligvis etter at noe allerede fungerer, ikke før. - Dette er fortsatt fortrening. Den virkelige fordelen i AI kommer fra post-trening, RLHF, alignment-løkker, der modeller faktisk blir nyttige. Templar flytter dit neste med Grail, og for meg er det den virkelige testen. Hvis de kan desentralisere det laget også, snakker vi ikke lenger om desentralisert databehandling, men om en fullstendig tillatelsesfri AI-produksjonspipeline. Det som får Templar til å skille seg ut for meg, er timingen og retningen de valgte. 1/ De gikk etter koordinering når hele AI-industrien stille og rolig nærmer seg skaleringsgrenser. - Det er et helt annet spill, og vanligvis er det de som angriper begrensninger, ikke trender, som betyr noe senere. 2/ En annen katalysator jeg ser er det tillatelsesløse designet. - De fleste desentraliserte AI-systemer låser fortsatt deltakelse på en eller annen måte, noe som dreper nettverkseffekter tidlig. - Templar ble helt åpen fra starten, noe som betyr at hvis denne modellen fungerer, skalerer den ikke bare lineært, men bygger seg sammen med flere bidragsytere, mer eksperimentering, flere kanttilfeller som løses parallelt. I tillegg forteller det meg at de bygger mot post-trening (RL-laget) at de forstår hvor den virkelige verdien ligger. Forhåndsopplæring får oppmerksomhet, men ettertrening er der modellene blir brukbare, klebrige og kan tjene penger på. Hvis de gjennomfører her, begynner de å eie en del av intelligenslaget selv. 3/ Min spådom basert på dette: På kort sikt vil de fleste fortsatt undervurdere det, fordi modellkvalitetsgapet versus sentraliserte laboratorier vil være det enkle argumentet. Men over tid tror jeg Templar blir: - et backend-lag for åpen AI-utvikling. - et koordineringsnettverk for distribuert databehandling. - og til slutt et marked for intelligensforbedring. Ikke dominerende over natten, men stille innfelt overalt. Og hvis det skjer, kommer fordelen av å bli systemet som alle kan bygge videre på når de ikke vil stole på @OpenAI i det hele tatt.
@tplr_ai @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @eliz883 👍
3,35K