🔥 Саме так. Templar змінив моє уявлення про ШІ в іншому. Я не очікував багато від децентралізованого ШІ, але побачити, як @tplr_ai навчати модель 72B на токенах 1.1T у ~70 вузлах без дозволу на Bittensor ($TAO). Це вже незвично, але те, що справді змінило мою думку — це те, як вони це зробили. - На цьому рівні навчання обмежене координацією. Зазвичай ви передаєте ~280GB даних на кожен етап синхронізації між вузлами, що робить децентралізоване навчання практично мертвим при прибутті. - @tplr_ai стиснув це до ~2,2 ГБ і суттєво зменшив частоту синхронізації за допомогою SparseLoCo. Коли я дивлюся на це, бачу, що вони усувають вузьке місце ядра, яке вбивало всі попередні спроби 🤯. Ось чому я вважаю, що називати це моментом DeepSeek — це не перебільшення. DeepSeek показав, що моделі можна навчати дешевше. Тамплієри показують, що їх можна тренувати без центральної координації. -> Це два дуже різні напрямки, і цей здається структурно складнішим для конкуренції. Ще один сигнал, який я не ігнорую: коли такі люди, як Джек Кларк з Anthropic, публічно подають це як реальний інфра: - З мого досвіду, таке підтвердження зазвичай приходить після того, як щось вже працює, а не раніше. - Це ще передпідготовка. Справжня перевага в ШІ — це посттренінг, RLHF, цикли вирівнювання, де моделі стають справді корисними. Темплар рухається туди наступним разом із Граалем, і для мене це справжнє випробування. Якщо вони зможуть децентралізувати і цей шар, то ми вже не говоримо про децентралізовані обчислення, а про повністю бездозволний виробничий конвеєр штучного інтелекту. Те, що виділяє Templar для мене, — це вибір часу і напрямку. 1/ Вони пішли на координацію, коли вся індустрія штучного інтелекту тихо досягає меж масштабування. - Це зовсім інша ставка, і зазвичай ті, хто атакує обмеження, а не тренди, мають значення пізніше. 2/ Ще один каталізатор, який я бачу, — це дизайн без дозволу. - Більшість децентралізованих систем ШІ все ще так чи інакше блокують участь, що вбиває мережеві ефекти на ранньому етапі. - Templar був повністю відкритим з самого початку, що означає, що якщо ця модель працює, вона не просто масштабується лінійно, а й складається з більшою кількістю учасників, більше експериментів, паралельно розв'язується більше крайніх випадків. Також той факт, що вони готуються до посттренінгу (рівень RL), говорить мені, що вони розуміють, де справжня цінність. Попереднє навчання привертає увагу, але після навчання моделі стають корисними, надійними та монетизуваними. Якщо вони реалізують тут, то починають володіти частиною самого рівня розвідки. 3/ Мій прогноз на основі цього: У короткостроковій перспективі більшість людей все одно недооцінюють це, бо розрив у якості моделей проти централізованих лабораторій буде легким аргументом. Але з часом, думаю, Templar стає: - бекенд-шар для відкритої розробки на основі ШІ. - координаційна мережа для розподілених обчислень. - і зрештою ринок для вдосконалення розвідки. Не домінує за одну ніч, а тихо вкорінено всюди. І якщо це станеться, перевага прийде в тому, що ти станеш системою, на якій кожен може будувати, коли взагалі не хоче на @OpenAI покладатися.
templar
templar23 години тому
Цього тижня @theallinpod @chamath запитав генерального директора @nvidia Дженсена Хуанга про навчання децентралізованому ШІ, назвавши наш запуск Covenant-72B «досить божевільним технічним досягненням». Одне уточнення: це 72 мільярди параметрів, а не чотири. Навчався без дозволу на 70+ учасників у звичайному інтернеті. Найбільша модель, коли-небудь попередньо навчена на повністю децентралізованій інфраструктурі. Відповідь Дженсена теж варта почути.
@tplr_ai Чади надають багато цінної інформації про екосистему Bittensor: @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @andyyy @eliz883
Karamata_ 💎
Karamata_ 💎15 годин тому
🔥 Саме так. Templar змінив моє уявлення про ШІ в іншому. Я не очікував багато від децентралізованого ШІ, але побачити, як @tplr_ai навчати модель 72B на токенах 1.1T у ~70 вузлах без дозволу на Bittensor ($TAO). Це вже незвично, але те, що справді змінило мою думку — це те, як вони це зробили. - На цьому рівні навчання обмежене координацією. Зазвичай ви передаєте ~280GB даних на кожен етап синхронізації між вузлами, що робить децентралізоване навчання практично мертвим при прибутті. - @tplr_ai стиснув це до ~2,2 ГБ і суттєво зменшив частоту синхронізації за допомогою SparseLoCo. Коли я дивлюся на це, бачу, що вони усувають вузьке місце ядра, яке вбивало всі попередні спроби 🤯. Ось чому я вважаю, що називати це моментом DeepSeek — це не перебільшення. DeepSeek показав, що моделі можна навчати дешевше. Тамплієри показують, що їх можна тренувати без центральної координації. -> Це два дуже різні напрямки, і цей здається структурно складнішим для конкуренції. Ще один сигнал, який я не ігнорую: коли такі люди, як Джек Кларк з Anthropic, публічно подають це як реальний інфра: - З мого досвіду, таке підтвердження зазвичай приходить після того, як щось вже працює, а не раніше. - Це ще передпідготовка. Справжня перевага в ШІ — це посттренінг, RLHF, цикли вирівнювання, де моделі стають справді корисними. Темплар рухається туди наступним разом із Граалем, і для мене це справжнє випробування. Якщо вони зможуть децентралізувати і цей шар, то ми вже не говоримо про децентралізовані обчислення, а про повністю бездозволний виробничий конвеєр штучного інтелекту. Те, що виділяє Templar для мене, — це вибір часу і напрямку. 1/ Вони пішли на координацію, коли вся індустрія штучного інтелекту тихо досягає меж масштабування. - Це зовсім інша ставка, і зазвичай ті, хто атакує обмеження, а не тренди, мають значення пізніше. 2/ Ще один каталізатор, який я бачу, — це дизайн без дозволу. - Більшість децентралізованих систем ШІ все ще так чи інакше блокують участь, що вбиває мережеві ефекти на ранньому етапі. - Templar був повністю відкритим з самого початку, що означає, що якщо ця модель працює, вона не просто масштабується лінійно, а й складається з більшою кількістю учасників, більше експериментів, паралельно розв'язується більше крайніх випадків. Також той факт, що вони готуються до посттренінгу (рівень RL), говорить мені, що вони розуміють, де справжня цінність. Попереднє навчання привертає увагу, але після навчання моделі стають корисними, надійними та монетизуваними. Якщо вони реалізують тут, то починають володіти частиною самого рівня розвідки. 3/ Мій прогноз на основі цього: У короткостроковій перспективі більшість людей все одно недооцінюють це, бо розрив у якості моделей проти централізованих лабораторій буде легким аргументом. Але з часом, думаю, Templar стає: - бекенд-шар для відкритої розробки на основі ШІ. - координаційна мережа для розподілених обчислень. - і зрештою ринок для вдосконалення розвідки. Не домінує за одну ніч, а тихо вкорінено всюди. І якщо це станеться, перевага прийде в тому, що ти станеш системою, на якій кожен може будувати, коли взагалі не хоче на @OpenAI покладатися.
@tplr_ai @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @eliz883 👍
3,33K