🔥 Přesně tak. Templar změnil můj pohled na AI infrastrukturu. Od decentralizované AI jsem moc nečekal, ale vidět @tplr_ai trénovat model 72B na 1,1T tokenech na ~70 bezoprávněných uzlech na Bittensoru ($TAO). To samo o sobě je už samo o sobě neobvyklé, ale co mě opravdu přesvědčilo, bylo to, jak to zvládli. - V této škále je výcvik omezen koordinací. Obvykle posíláte ~280GB dat na jeden synchronizační krok mezi uzly, což znamená, že decentralizované trénování je prakticky mrtvé hned po příchodu. - @tplr_ai to zkomprimoval na ~2,2GB a výrazně snížil synchronizační frekvenci pomocí SparseLoCo. Když se na to dívám, vidím, že odstranili hlavní úzké hrdlo, které zničilo všechny předchozí pokusy 🤯. Proto si myslím, že nazývat tento moment DeepSeek není přehnané. DeepSeek ukázal, že modely lze trénovat levněji. Templar ukazuje, že je lze vycvičit i bez centrální koordinace. -> To jsou dva velmi odlišné směry a tenhle se mi zdá být strukturálně těžší na soupeření. Další signál, který neignoruji: když lidé jako Jack Clark z Anthropic veřejně prezentují tuto situaci jako skutečnou infrastrukturu: - Z mé zkušenosti takové potvrzení obvykle přichází až poté, co už něco funguje, ne dřív. - Tohle je pořád předškolení. Skutečná výhoda AI přichází z post-trénování, RLHF, zarovnávacích smyček, kde se modely stávají skutečně užitečnými. Templar se tam stěhuje s Grailem a pro mě je to opravdová zkouška. Pokud dokážou decentralizovat i tuto vrstvu, už nemluvíme o decentralizovaném výpočetním procesu, ale o plně bezpovoleném AI produkčním pipeline. Co mě na Templáři zaujalo, je načasování a směr, který si zvolili. 1/ Zaměřili se na koordinaci, když celý AI průmysl tiše naráží na limity škálování. - To je úplně jiná sázka a obvykle ti, kdo útočí na omezení, ne na trendy, jsou ti, kdo později rozhodují. 2/ Dalším katalyzátorem, který vidím, je design bez povolení. - Většina decentralizovaných AI systémů stále nějakým způsobem brání účasti, což brzy zabíjí síťové efekty. - Templar šel od začátku plně otevřeně, což znamená, že pokud tento model funguje, neškáluje se jen lineárně, ale skládá se s více přispěvateli, více experimentováním, více okrajovými případy řešenými paralelně. Také fakt, že se blíží k post-školení (RL vrstva), mi říká, že chápou, kde je skutečná hodnota. Předtrénování přitahuje pozornost, ale právě po tréninku se modely stávají použitelnými, přilepitelnými a zpeněžnitelnými. Pokud zde provedou výkon, začnou vlastnit část samotné zpravodajské vrstvy. 3/ Moje předpověď založená na tomto: Krátkodobě to většina lidí stále podceňuje, protože rozdíl v kvalitě modelů oproti centralizovaným laboratořím bude snadný argument. Ale časem si myslím, že Templar se stává: - backendová vrstva pro otevřený vývoj AI. - koordinační síť pro distribuované výpočty. - a nakonec trh pro zdokonalování zpravodajství. Ne dominantní přes noc, ale tiše všude zakořeněná. A pokud se to podaří, výhodou je stát se systémem, na kterém může kdokoli stavět, když se na @OpenAI vůbec nechce spoléhat.
templar
templar20. 3. 04:01
Tento týden @theallinpod @chamath se zeptal @nvidia generálního ředitele Jensena Huanga na decentralizovaný trénink AI a označil náš běh Covenant-72B za "docela šílený technický úspěch." Jedna oprava: je to 72 miliard parametrů, ne čtyři. Neoprávněně jsem trénoval mezi 70+ přispěvateli na běžném internetu. Největší model vůbec předtrénovaný na plně decentralizované infrastruktuře. Jensenova odpověď stojí také za poslech.
@tplr_ai Chadové poskytují spoustu cenných informací o ekosystému Bittensor: @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @andyyy @eliz883
Karamata_ 💎
Karamata_ 💎Před 16 h
🔥 Přesně tak. Templar změnil můj pohled na AI infrastrukturu. Od decentralizované AI jsem moc nečekal, ale vidět @tplr_ai trénovat model 72B na 1,1T tokenech na ~70 bezoprávněných uzlech na Bittensoru ($TAO). To samo o sobě je už samo o sobě neobvyklé, ale co mě opravdu přesvědčilo, bylo to, jak to zvládli. - V této škále je výcvik omezen koordinací. Obvykle posíláte ~280GB dat na jeden synchronizační krok mezi uzly, což znamená, že decentralizované trénování je prakticky mrtvé hned po příchodu. - @tplr_ai to zkomprimoval na ~2,2GB a výrazně snížil synchronizační frekvenci pomocí SparseLoCo. Když se na to dívám, vidím, že odstranili hlavní úzké hrdlo, které zničilo všechny předchozí pokusy 🤯. Proto si myslím, že nazývat tento moment DeepSeek není přehnané. DeepSeek ukázal, že modely lze trénovat levněji. Templar ukazuje, že je lze vycvičit i bez centrální koordinace. -> To jsou dva velmi odlišné směry a tenhle se mi zdá být strukturálně těžší na soupeření. Další signál, který neignoruji: když lidé jako Jack Clark z Anthropic veřejně prezentují tuto situaci jako skutečnou infrastrukturu: - Z mé zkušenosti takové potvrzení obvykle přichází až poté, co už něco funguje, ne dřív. - Tohle je pořád předškolení. Skutečná výhoda AI přichází z post-trénování, RLHF, zarovnávacích smyček, kde se modely stávají skutečně užitečnými. Templar se tam stěhuje s Grailem a pro mě je to opravdová zkouška. Pokud dokážou decentralizovat i tuto vrstvu, už nemluvíme o decentralizovaném výpočetním procesu, ale o plně bezpovoleném AI produkčním pipeline. Co mě na Templáři zaujalo, je načasování a směr, který si zvolili. 1/ Zaměřili se na koordinaci, když celý AI průmysl tiše naráží na limity škálování. - To je úplně jiná sázka a obvykle ti, kdo útočí na omezení, ne na trendy, jsou ti, kdo později rozhodují. 2/ Dalším katalyzátorem, který vidím, je design bez povolení. - Většina decentralizovaných AI systémů stále nějakým způsobem brání účasti, což brzy zabíjí síťové efekty. - Templar šel od začátku plně otevřeně, což znamená, že pokud tento model funguje, neškáluje se jen lineárně, ale skládá se s více přispěvateli, více experimentováním, více okrajovými případy řešenými paralelně. Také fakt, že se blíží k post-školení (RL vrstva), mi říká, že chápou, kde je skutečná hodnota. Předtrénování přitahuje pozornost, ale právě po tréninku se modely stávají použitelnými, přilepitelnými a zpeněžnitelnými. Pokud zde provedou výkon, začnou vlastnit část samotné zpravodajské vrstvy. 3/ Moje předpověď založená na tomto: Krátkodobě to většina lidí stále podceňuje, protože rozdíl v kvalitě modelů oproti centralizovaným laboratořím bude snadný argument. Ale časem si myslím, že Templar se stává: - backendová vrstva pro otevřený vývoj AI. - koordinační síť pro distribuované výpočty. - a nakonec trh pro zdokonalování zpravodajství. Ne dominantní přes noc, ale tiše všude zakořeněná. A pokud se to podaří, výhodou je stát se systémem, na kterém může kdokoli stavět, když se na @OpenAI vůbec nechce spoléhat.
@tplr_ai @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @eliz883 👍
3,34K