🔥 Juuri niin. Templar muutti tapaani ajatella tekoälyinfrastruktuuria. En odottanut hajautetulta tekoälyltä paljoa, mutta näin @tplr_ai kouluttavan 72B-mallia 1.1T tokeneilla ~70 luvattomassa solmussa Bittensorissa ($TAO). Se yksinään on jo poikkeuksellista, mutta mikä todella muutti mieleni, oli se, miten he saivat sen toimimaan. - Tässä mittakaavassa koulutus on rajoitettu koordinaatioon. Normaalisti syötät ~280GB dataa synkronointivaiheessa solmujen välillä, mikä tekee hajautetusta koulutuksesta käytännössä kuollutta saapuessa. - @tplr_ai pakkasi sen ~2,2 GB:iin ja vähensi synkronointitaajuutta huomattavasti käyttämällä SparseLoCoa. Kun katson sitä, näen heidän poistavan ydinpullonkaulan, joka tappoi kaikki aiemmat yritykset 🤯. Siksi mielestäni tämän kutsuminen DeepSeek-hetkeksi ei ole liioiteltua. DeepSeek osoitti, että malleja voi kouluttaa edullisemmin. Temppeliritari osoittaa, että heitä voidaan kouluttaa ilman keskitettyä koordinaatiota lainkaan. -> Nuo ovat kaksi hyvin erilaista suuntaa, ja tämä tuntuu rakenteellisesti vaikeammalta kilpailla. Toinen merkki, jota en jätä huomiotta: kun ihmiset kuten Anthropicin Jack Clark julkisesti esittävät sen todelliseksi infrakuvaksi: - Kokemukseni mukaan tällainen vahvistus tulee yleensä vasta kun jokin on jo toiminut, ei ennen. - Tämä on vielä esikoulutusta. Tekoälyn todellinen etu tulee koulutuksen jälkeisistä RLHF-silmukoista, joissa mallit tulevat oikeasti hyödyllisiksi. Templar siirtyy seuraavaksi sinne Graalin kanssa, ja minulle se on todellinen testi. Jos he pystyvät hajauttamaan myös tämänkin kerroksen, emme enää puhu hajautetusta laskennasta, vaan täysin luvattomasta tekoälytuotantoputkesta. Mikä tekee Templarista minulle erityisen, on heidän valitsemansa ajoitus ja suunta. 1/ He lähtivät koordinointiin, vaikka koko tekoälyala saavuttaa hiljaisesti skaalausrajoja. - Se on hyvin eri veikkaus, ja yleensä ne, jotka hyökkäävät rajoitteita vastaan, eivät trendejä, ovat niitä, joilla on merkitystä myöhemmin. 2/ Toinen katalysaattori, jonka näen, on luvaton suunnittelu. - Useimmat hajautetut tekoälyjärjestelmät silti ohjaavat osallistumista jollain tavalla, mikä tappaa verkkovaikutukset varhaisessa vaiheessa. - Templar meni täysin avoimeksi alusta alkaen, mikä tarkoittaa, että jos tämä malli toimii, se ei vain skaalaudu lineaarisesti, vaan yhdistelee enemmän osallistujia, enemmän kokeiluja ja useampia reunatapauksia ratkaistaan rinnakkain. Lisäksi se, että he rakentavat kohti jälkikoulutusta (RL-taso), kertoo minulle, että he ymmärtävät, missä todellinen arvo on. Esikoulutus saa huomiota, mutta koulutuksen jälkeen mallit muuttuvat käyttökelpoisiksi, tarttuviksi ja rahastettavaksi. Jos he toteuttavat tässä, he alkavat omistaa osan tiedustelukerroksesta. 3/ Ennustukseni perustuu tähän: Lyhyellä aikavälillä useimmat ihmiset aliarvioivat sen, koska mallien laatuero verrattuna keskitettyihin laboratorioihin on helppo argumentti. Mutta ajan myötä uskon, että Templar muuttuu: - taustataso avoimen tekoälyn kehitykselle. - hajautetun laskennan koordinointiverkko. - ja lopulta markkinapaikan älykkyyden hiomiselle. Ei hallitsevia yhdessä yössä, vaan hiljaisesti juurtuneena kaikkialle. Ja jos se toteutuu, hyöty tulee siitä, että siitä tulee järjestelmä, jonka päälle kuka tahansa voi rakentaa, kun ei halua luottaa @OpenAI lainkaan.
templar
templar22 tuntia sitten
Tämän viikon @theallinpod @chamath kysyi @nvidia toimitusjohtajalta Jensen Huangilta hajautetusta tekoälykoulutuksesta, kutsuen Covenant-72B:n toimintaamme "melko hulluksi tekniseksi saavutukseksi." Yksi korjaus: se on 72 miljardia parametria, ei neljä. Koulutettu luvattomasti 70+ kirjoittajan keskuudessa tavalliseen internetiin. Suurin koskaan esikoulutettu malli täysin hajautetulle infrastruktuurille. Jensenin vastaus on myös kuulemisen arvoinen.
@tplr_ai Chads tarjoaa paljon arvokasta tietoa Bittensor-ekosysteemistä: @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @andyyy @eliz883
Karamata_ 💎
Karamata_ 💎15 tuntia sitten
🔥 Juuri niin. Templar muutti tapaani ajatella tekoälyinfrastruktuuria. En odottanut hajautetulta tekoälyltä paljoa, mutta näin @tplr_ai kouluttavan 72B-mallia 1.1T tokeneilla ~70 luvattomassa solmussa Bittensorissa ($TAO). Se yksinään on jo poikkeuksellista, mutta mikä todella muutti mieleni, oli se, miten he saivat sen toimimaan. - Tässä mittakaavassa koulutus on rajoitettu koordinaatioon. Normaalisti syötät ~280GB dataa synkronointivaiheessa solmujen välillä, mikä tekee hajautetusta koulutuksesta käytännössä kuollutta saapuessa. - @tplr_ai pakkasi sen ~2,2 GB:iin ja vähensi synkronointitaajuutta huomattavasti käyttämällä SparseLoCoa. Kun katson sitä, näen heidän poistavan ydinpullonkaulan, joka tappoi kaikki aiemmat yritykset 🤯. Siksi mielestäni tämän kutsuminen DeepSeek-hetkeksi ei ole liioiteltua. DeepSeek osoitti, että malleja voi kouluttaa edullisemmin. Temppeliritari osoittaa, että heitä voidaan kouluttaa ilman keskitettyä koordinaatiota lainkaan. -> Nuo ovat kaksi hyvin erilaista suuntaa, ja tämä tuntuu rakenteellisesti vaikeammalta kilpailla. Toinen merkki, jota en jätä huomiotta: kun ihmiset kuten Anthropicin Jack Clark julkisesti esittävät sen todelliseksi infrakuvaksi: - Kokemukseni mukaan tällainen vahvistus tulee yleensä vasta kun jokin on jo toiminut, ei ennen. - Tämä on vielä esikoulutusta. Tekoälyn todellinen etu tulee koulutuksen jälkeisistä RLHF-silmukoista, joissa mallit tulevat oikeasti hyödyllisiksi. Templar siirtyy seuraavaksi sinne Graalin kanssa, ja minulle se on todellinen testi. Jos he pystyvät hajauttamaan myös tämänkin kerroksen, emme enää puhu hajautetusta laskennasta, vaan täysin luvattomasta tekoälytuotantoputkesta. Mikä tekee Templarista minulle erityisen, on heidän valitsemansa ajoitus ja suunta. 1/ He lähtivät koordinointiin, vaikka koko tekoälyala saavuttaa hiljaisesti skaalausrajoja. - Se on hyvin eri veikkaus, ja yleensä ne, jotka hyökkäävät rajoitteita vastaan, eivät trendejä, ovat niitä, joilla on merkitystä myöhemmin. 2/ Toinen katalysaattori, jonka näen, on luvaton suunnittelu. - Useimmat hajautetut tekoälyjärjestelmät silti ohjaavat osallistumista jollain tavalla, mikä tappaa verkkovaikutukset varhaisessa vaiheessa. - Templar meni täysin avoimeksi alusta alkaen, mikä tarkoittaa, että jos tämä malli toimii, se ei vain skaalaudu lineaarisesti, vaan yhdistelee enemmän osallistujia, enemmän kokeiluja ja useampia reunatapauksia ratkaistaan rinnakkain. Lisäksi se, että he rakentavat kohti jälkikoulutusta (RL-taso), kertoo minulle, että he ymmärtävät, missä todellinen arvo on. Esikoulutus saa huomiota, mutta koulutuksen jälkeen mallit muuttuvat käyttökelpoisiksi, tarttuviksi ja rahastettavaksi. Jos he toteuttavat tässä, he alkavat omistaa osan tiedustelukerroksesta. 3/ Ennustukseni perustuu tähän: Lyhyellä aikavälillä useimmat ihmiset aliarvioivat sen, koska mallien laatuero verrattuna keskitettyihin laboratorioihin on helppo argumentti. Mutta ajan myötä uskon, että Templar muuttuu: - taustataso avoimen tekoälyn kehitykselle. - hajautetun laskennan koordinointiverkko. - ja lopulta markkinapaikan älykkyyden hiomiselle. Ei hallitsevia yhdessä yössä, vaan hiljaisesti juurtuneena kaikkialle. Ja jos se toteutuu, hyöty tulee siitä, että siitä tulee järjestelmä, jonka päälle kuka tahansa voi rakentaa, kun ei halua luottaa @OpenAI lainkaan.
@tplr_ai @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @eliz883 👍
3,33K