🔥 Exact. Templar mi-a schimbat modul în care privesc infrastructura AI. Nu mă așteptam la prea multe de la AI descentralizat, dar să văd @tplr_ai antrenez un model 72B pe tokenuri 1.1T prin ~70 de noduri permissionless pe Bittensor ($TAO). Doar asta e deja neobișnuit, dar ceea ce mi-a schimbat cu adevărat părerea a fost modul în care au reușit să facă să funcționeze. - La această scară, instruirea este limitată de coordonare. De obicei, împingi ~280GB de date pe pas de sincronizare între noduri, ceea ce face ca antrenamentul descentralizat să fie practic mort imediat. - @tplr_ai comprimat la ~2,2GB și a redus masiv frecvența sincronizării folosind SparseLoCo. Când mă uit la asta, văd că elimină blocajul de bază care a blocat fiecare încercare 🤯 anterioară. De aceea cred că a numi asta un moment DeepSeek nu este, de fapt, exagerat. DeepSeek a arătat că modelele pot fi antrenate mai ieftin. Templari arată că pot fi antrenați fără nicio coordonare centrală. -> Sunt două direcții foarte diferite, iar aceasta pare mai greu de concurat din punct de vedere structural. Un alt semnal pe care nu-l ignor: când oameni ca Jack Clark de la Anthropic îl prezintă public ca pe o infrastructură reală: - Din experiența mea, acest tip de validare vine de obicei după ce ceva deja funcționează, nu înainte. - Asta e încă pre-antrenament. Adevăratul avantaj în AI vine din ciclurile de aliniere post-antrenament, RLHF, practic unde modelele devin cu adevărat utile. Templar urmează să se mute acolo cu Grail, iar pentru mine acesta este adevăratul test. Dacă pot descentraliza și acel strat, atunci nu mai vorbim despre calcul descentralizat, ci despre un pipeline de producție AI complet fără permisiuni. Ceea ce face ca Templar să iasă în aer pentru mine este momentul și direcția pe care au ales-o. 1/ Au urmărit coordonarea când întreaga industrie AI atinge liniștit limitele de scalare. - Este o miză foarte diferită, iar de obicei cei care atacă constrângerile, nu tendințele, sunt cei care contează mai târziu. 2/ Un alt catalizator pe care îl văd este designul fără permisiune. - Majoritatea sistemelor AI descentralizate încă poartă participarea într-un fel sau altul, ceea ce ucide efectele rețelei devreme. - Templar a fost complet deschis de la început, ceea ce înseamnă că dacă acest model funcționează, nu se scalează doar liniar, ci compune cu mai mulți contributori, mai multă experimentare, mai multe cazuri limită rezolvate în paralel. De asemenea, faptul că construiesc spre post-training (stratul RL) îmi arată că înțeleg unde se află valoarea reală. Pre-training atrage atenția, dar post-training este momentul în care modelele devin utilizabile, adezive și monetizabile. Dacă execută aici, încep să dețină o parte din stratul de inteligență în sine. 3/ Predicția mea bazată pe asta: Pe termen scurt, majoritatea oamenilor tot vor subestima acest lucru pentru că diferența de calitate a modelelor față de laboratoarele centralizate va fi argumentul ușor. Dar, în timp, cred că Templar devine: - un strat backend pentru dezvoltarea open AI. - o rețea de coordonare pentru calcul distribuit. - și, în cele din urmă, o piață pentru rafinarea informațiilor. Nu dominant peste noapte, ci adânc încorporat peste tot. Și dacă acest lucru se va întâmpla, avantajul vine din faptul că devii sistemul pe care oricine poate construi atunci când nu vrea să se bazeze deloc pe @OpenAI.
templar
templarCu 21 de ore în urmă
Pe @theallinpod săptămâna aceasta, @chamath întrebat CEO-ul @nvidia Jensen Huang despre antrenamentul AI descentralizat, numind run-ul nostru Covenant-72B "o realizare tehnică destul de nebună." O corectare: sunt 72 de miliarde de parametri, nu patru. Instruit fără permisiune de către 70+ contributori pe internetul de mărfuri. Cel mai mare model pre-antrenat vreodată pe infrastructură complet descentralizată. Răspunsul lui Jensen merită ascultat și el.
@tplr_ai Chads oferă multe informații valoroase despre ecosistemul Bittensor: @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @andyyy @eliz883
Karamata_ 💎
Karamata_ 💎Cu 13 ore în urmă
🔥 Exact. Templar mi-a schimbat modul în care privesc infrastructura AI. Nu mă așteptam la prea multe de la AI descentralizat, dar să văd @tplr_ai antrenez un model 72B pe tokenuri 1.1T prin ~70 de noduri permissionless pe Bittensor ($TAO). Doar asta e deja neobișnuit, dar ceea ce mi-a schimbat cu adevărat părerea a fost modul în care au reușit să facă să funcționeze. - La această scară, instruirea este limitată de coordonare. De obicei, împingi ~280GB de date pe pas de sincronizare între noduri, ceea ce face ca antrenamentul descentralizat să fie practic mort imediat. - @tplr_ai comprimat la ~2,2GB și a redus masiv frecvența sincronizării folosind SparseLoCo. Când mă uit la asta, văd că elimină blocajul de bază care a blocat fiecare încercare 🤯 anterioară. De aceea cred că a numi asta un moment DeepSeek nu este, de fapt, exagerat. DeepSeek a arătat că modelele pot fi antrenate mai ieftin. Templari arată că pot fi antrenați fără nicio coordonare centrală. -> Sunt două direcții foarte diferite, iar aceasta pare mai greu de concurat din punct de vedere structural. Un alt semnal pe care nu-l ignor: când oameni ca Jack Clark de la Anthropic îl prezintă public ca pe o infrastructură reală: - Din experiența mea, acest tip de validare vine de obicei după ce ceva deja funcționează, nu înainte. - Asta e încă pre-antrenament. Adevăratul avantaj în AI vine din ciclurile de aliniere post-antrenament, RLHF, practic unde modelele devin cu adevărat utile. Templar urmează să se mute acolo cu Grail, iar pentru mine acesta este adevăratul test. Dacă pot descentraliza și acel strat, atunci nu mai vorbim despre calcul descentralizat, ci despre un pipeline de producție AI complet fără permisiuni. Ceea ce face ca Templar să iasă în aer pentru mine este momentul și direcția pe care au ales-o. 1/ Au urmărit coordonarea când întreaga industrie AI atinge liniștit limitele de scalare. - Este o miză foarte diferită, iar de obicei cei care atacă constrângerile, nu tendințele, sunt cei care contează mai târziu. 2/ Un alt catalizator pe care îl văd este designul fără permisiune. - Majoritatea sistemelor AI descentralizate încă poartă participarea într-un fel sau altul, ceea ce ucide efectele rețelei devreme. - Templar a fost complet deschis de la început, ceea ce înseamnă că dacă acest model funcționează, nu se scalează doar liniar, ci compune cu mai mulți contributori, mai multă experimentare, mai multe cazuri limită rezolvate în paralel. De asemenea, faptul că construiesc spre post-training (stratul RL) îmi arată că înțeleg unde se află valoarea reală. Pre-training atrage atenția, dar post-training este momentul în care modelele devin utilizabile, adezive și monetizabile. Dacă execută aici, încep să dețină o parte din stratul de inteligență în sine. 3/ Predicția mea bazată pe asta: Pe termen scurt, majoritatea oamenilor tot vor subestima acest lucru pentru că diferența de calitate a modelelor față de laboratoarele centralizate va fi argumentul ușor. Dar, în timp, cred că Templar devine: - un strat backend pentru dezvoltarea open AI. - o rețea de coordonare pentru calcul distribuit. - și, în cele din urmă, o piață pentru rafinarea informațiilor. Nu dominant peste noapte, ci adânc încorporat peste tot. Și dacă acest lucru se va întâmpla, avantajul vine din faptul că devii sistemul pe care oricine poate construi atunci când nu vrea să se bazeze deloc pe @OpenAI.
@tplr_ai @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @eliz883 👍
3,33K