🔥 Tepat. Templar mengubah cara saya berpikir tentang infra AI. Saya tidak berharap banyak dari AI terdesentralisasi, tetapi melihat @tplr_ai melatih model 72B pada token 1.1T di ~70 node tanpa izin di Bittensor ($TAO). Itu saja sudah tidak biasa, tetapi yang benar-benar mengubah pikiran saya adalah bagaimana mereka membuatnya berhasil. - Pada skala ini, pelatihan dibatasi oleh koordinasi. Biasanya Anda mendorong ~280GB data per langkah sinkronisasi antar node, yang membuat pelatihan terdesentralisasi pada dasarnya mati pada saat kedatangan. - @tplr_ai mengompresnya menjadi ~2,2GB dan mengurangi frekuensi sinkronisasi secara besar-besaran menggunakan SparseLoCo. Ketika saya melihat itu, saya melihat mereka menghilangkan kemacetan inti yang membunuh setiap upaya 🤯 sebelumnya. Itu sebabnya saya pikir menyebut ini sebagai momen DeepSeek sebenarnya tidak berlebihan. DeepSeek menunjukkan model dapat dilatih lebih murah. Templar menunjukkan bahwa mereka dapat dilatih tanpa koordinasi pusat sama sekali. -> Itu adalah dua arah yang sangat berbeda, dan yang satu ini terasa secara struktural lebih sulit untuk bersaing. Sinyal lain yang tidak saya abaikan: ketika orang-orang seperti Jack Clark dari Anthropic secara terbuka membingkainya sebagai infra nyata: - Menurut pengalaman saya, validasi semacam itu biasanya datang setelah sesuatu sudah berhasil, bukan sebelumnya. - Ini masih pra-pelatihan. Keunggulan sebenarnya dalam AI berasal dari loop penyelarasan pasca-pelatihan, RLHF, pada dasarnya di mana model menjadi benar-benar berguna. Templar pindah ke sana selanjutnya dengan Grail, dan bagi saya itulah ujian yang sebenarnya. Jika mereka dapat mendesentralisasi lapisan itu juga, maka kita tidak lagi berbicara tentang komputasi terdesentralisasi, mereka berbicara tentang saluran produksi AI yang sepenuhnya tanpa izin. Apa yang membuat Templar menonjol bagi saya adalah waktu dan arah yang mereka pilih. 1/ Mereka mengejar koordinasi ketika seluruh industri AI diam-diam mencapai batas penskalaan. - Itu taruhan yang sangat berbeda, dan biasanya orang yang menyerang kendala, bukan tren, adalah yang penting nanti. 2/ Katalis lain yang saya lihat adalah desain tanpa izin. - Sebagian besar sistem AI terdesentralisasi masih memantapkan partisipasi dalam beberapa cara, yang membunuh efek jaringan lebih awal. - Templar dibuka sepenuhnya sejak awal, yang berarti jika model ini berfungsi, itu tidak hanya diskalakan secara linier, tetapi juga bersenyawa dengan lebih banyak kontributor, lebih banyak eksperimen, lebih banyak kasus tepi yang diselesaikan secara paralel. Juga, fakta bahwa mereka membangun menuju pasca-pelatihan (lapisan RL) memberi tahu saya bahwa mereka memahami di mana nilai sebenarnya berada. Pra-pelatihan mendapat perhatian, tetapi pasca-pelatihan adalah tempat model menjadi dapat digunakan, lengket, dan dimonetisasi. Jika mereka mengeksekusi di sini, mereka mulai memiliki bagian dari lapisan kecerdasan itu sendiri. 3/ Prediksi saya berdasarkan ini: Dalam jangka pendek, kebanyakan orang masih akan meremehkannya karena kesenjangan kualitas model vs laboratorium terpusat akan menjadi argumen yang mudah. Tapi seiring waktu, saya pikir Templar menjadi: - lapisan backend untuk pengembangan AI terbuka. - jaringan koordinasi untuk komputasi terdistribusi. - dan akhirnya pasar untuk penyempurnaan intelijen. Tidak dominan dalam semalam, tetapi diam-diam tertanam di mana-mana. Dan jika itu terjadi, keuntungannya datang dari menjadi sistem yang dapat dibangun siapa pun ketika mereka tidak ingin mengandalkan @OpenAI sama sekali.
templar
templar20 Mar, 04.01
Pada @theallinpod minggu ini, @chamath bertanya kepada CEO @nvidia Jensen Huang tentang pelatihan AI terdesentralisasi, menyebut Covenant-72B kami sebagai "pencapaian teknis yang cukup gila." Satu koreksi: itu 72 miliar parameter, bukan empat. Dilatih tanpa izin di 70+ kontributor di internet komoditas. Model terbesar yang pernah dilatih sebelumnya pada infrastruktur yang sepenuhnya terdesentralisasi. Jawaban Jensen juga layak didengar.
@tplr_ai Chad memberikan banyak info berharga tentang ekosistem Bittensor: @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @andyyy @eliz883
Karamata_ 💎
Karamata_ 💎19 jam lalu
🔥 Tepat. Templar mengubah cara saya berpikir tentang infra AI. Saya tidak berharap banyak dari AI terdesentralisasi, tetapi melihat @tplr_ai melatih model 72B pada token 1.1T di ~70 node tanpa izin di Bittensor ($TAO). Itu saja sudah tidak biasa, tetapi yang benar-benar mengubah pikiran saya adalah bagaimana mereka membuatnya berhasil. - Pada skala ini, pelatihan dibatasi oleh koordinasi. Biasanya Anda mendorong ~280GB data per langkah sinkronisasi antar node, yang membuat pelatihan terdesentralisasi pada dasarnya mati pada saat kedatangan. - @tplr_ai mengompresnya menjadi ~2,2GB dan mengurangi frekuensi sinkronisasi secara besar-besaran menggunakan SparseLoCo. Ketika saya melihat itu, saya melihat mereka menghilangkan kemacetan inti yang membunuh setiap upaya 🤯 sebelumnya. Itu sebabnya saya pikir menyebut ini sebagai momen DeepSeek sebenarnya tidak berlebihan. DeepSeek menunjukkan model dapat dilatih lebih murah. Templar menunjukkan bahwa mereka dapat dilatih tanpa koordinasi pusat sama sekali. -> Itu adalah dua arah yang sangat berbeda, dan yang satu ini terasa secara struktural lebih sulit untuk bersaing. Sinyal lain yang tidak saya abaikan: ketika orang-orang seperti Jack Clark dari Anthropic secara terbuka membingkainya sebagai infra nyata: - Menurut pengalaman saya, validasi semacam itu biasanya datang setelah sesuatu sudah berhasil, bukan sebelumnya. - Ini masih pra-pelatihan. Keunggulan sebenarnya dalam AI berasal dari loop penyelarasan pasca-pelatihan, RLHF, pada dasarnya di mana model menjadi benar-benar berguna. Templar pindah ke sana selanjutnya dengan Grail, dan bagi saya itulah ujian yang sebenarnya. Jika mereka dapat mendesentralisasi lapisan itu juga, maka kita tidak lagi berbicara tentang komputasi terdesentralisasi, mereka berbicara tentang saluran produksi AI yang sepenuhnya tanpa izin. Apa yang membuat Templar menonjol bagi saya adalah waktu dan arah yang mereka pilih. 1/ Mereka mengejar koordinasi ketika seluruh industri AI diam-diam mencapai batas penskalaan. - Itu taruhan yang sangat berbeda, dan biasanya orang yang menyerang kendala, bukan tren, adalah yang penting nanti. 2/ Katalis lain yang saya lihat adalah desain tanpa izin. - Sebagian besar sistem AI terdesentralisasi masih memantapkan partisipasi dalam beberapa cara, yang membunuh efek jaringan lebih awal. - Templar dibuka sepenuhnya sejak awal, yang berarti jika model ini berfungsi, itu tidak hanya diskalakan secara linier, tetapi juga bersenyawa dengan lebih banyak kontributor, lebih banyak eksperimen, lebih banyak kasus tepi yang diselesaikan secara paralel. Juga, fakta bahwa mereka membangun menuju pasca-pelatihan (lapisan RL) memberi tahu saya bahwa mereka memahami di mana nilai sebenarnya berada. Pra-pelatihan mendapat perhatian, tetapi pasca-pelatihan adalah tempat model menjadi dapat digunakan, lengket, dan dimonetisasi. Jika mereka mengeksekusi di sini, mereka mulai memiliki bagian dari lapisan kecerdasan itu sendiri. 3/ Prediksi saya berdasarkan ini: Dalam jangka pendek, kebanyakan orang masih akan meremehkannya karena kesenjangan kualitas model vs laboratorium terpusat akan menjadi argumen yang mudah. Tapi seiring waktu, saya pikir Templar menjadi: - lapisan backend untuk pengembangan AI terbuka. - jaringan koordinasi untuk komputasi terdistribusi. - dan akhirnya pasar untuk penyempurnaan intelijen. Tidak dominan dalam semalam, tetapi diam-diam tertanam di mana-mana. Dan jika itu terjadi, keuntungannya datang dari menjadi sistem yang dapat dibangun siapa pun ketika mereka tidak ingin mengandalkan @OpenAI sama sekali.
@tplr_ai @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @eliz883 👍
3,35K