🔥 Esattamente. Templar ha cambiato il modo in cui penso all'infrastruttura AI. Non mi aspettavo molto dall'AI decentralizzata, ma vedere @tplr_ai addestrare un modello da 72B su 1.1T di token attraverso ~70 nodi senza permesso su Bittensor ( $TAO). Già questo è insolito, ma ciò che ha davvero cambiato la mia opinione è come sono riusciti a farlo funzionare. - A questa scala, l'addestramento è limitato dalla coordinazione. Normalmente stai spingendo ~280GB di dati per ogni passo di sincronizzazione tra i nodi, il che rende l'addestramento decentralizzato praticamente morto all'arrivo. - @tplr_ai ha compresso tutto a ~2.2GB e ha ridotto drasticamente la frequenza di sincronizzazione utilizzando SparseLoCo. Quando guardo a questo, vedo che stanno rimuovendo il collo di bottiglia principale che ha ucciso ogni tentativo precedente 🤯. Ecco perché penso che chiamare questo un momento DeepSeek non sia affatto esagerato. DeepSeek ha dimostrato che i modelli possono essere addestrati a costi inferiori. Templar dimostra che possono essere addestrati senza alcuna coordinazione centrale. -> Queste sono due direzioni molto diverse, e questa sembra strutturalmente più difficile da competere. Un altro segnale che non ignoro: quando persone come Jack Clark di Anthropic lo inquadrano pubblicamente come una vera infrastruttura: - Nella mia esperienza, quel tipo di validazione di solito arriva dopo che qualcosa funziona già, non prima. - Questo è ancora pre-addestramento. Il vero vantaggio nell'AI deriva dal post-addestramento, RLHF, cicli di allineamento, fondamentalmente dove i modelli diventano realmente utili. Templar si sta muovendo lì successivamente con Grail, e per me questo è il vero test. Se possono decentralizzare anche quel livello, allora non stiamo più parlando di calcolo decentralizzato, stanno parlando di una pipeline di produzione AI completamente senza permesso. Ciò che rende Templar distintivo per me è il tempismo e la direzione che hanno scelto. 1/ Hanno puntato sulla coordinazione quando l'intera industria AI sta silenziosamente raggiungendo limiti di scalabilità. - Questa è una scommessa molto diversa, e di solito coloro che attaccano i vincoli, non le tendenze, sono quelli che contano in seguito. 2/ Un altro catalizzatore che vedo è il design senza permesso. - La maggior parte dei sistemi AI decentralizzati ancora limita la partecipazione in qualche modo, il che uccide gli effetti di rete precocemente. - Templar è andata completamente aperta fin dall'inizio, il che significa che se questo modello funziona, non solo scala linearmente, ma si compone con più contributori, più esperimenti, più casi limite risolti in parallelo. Inoltre, il fatto che stiano costruendo verso il post-addestramento (livello RL) mi dice che comprendono dove si trova il vero valore. Il pre-addestramento attira l'attenzione, ma il post-addestramento è dove i modelli diventano utilizzabili, appiccicosi e monetizzabili. Se eseguono qui, iniziano a possedere parte del livello di intelligenza stesso. 3/ La mia previsione basata su questo: Nel breve termine, la maggior parte delle persone continuerà a sottovalutarlo perché il divario di qualità del modello rispetto ai laboratori centralizzati sarà l'argomento facile. Ma nel tempo, penso che Templar diventi: - uno strato backend per lo sviluppo AI aperto. - una rete di coordinazione per il calcolo distribuito. - e infine un mercato per il perfezionamento dell'intelligenza. Non dominante da un giorno all'altro, ma silenziosamente integrato ovunque. E se questo si realizza, il vantaggio deriva dal diventare il sistema su cui chiunque può costruire quando non vuole fare affidamento su @OpenAI.
templar
templar20 mar, 04:01
Questa settimana nel @theallinpod, @chamath ha chiesto al CEO di @nvidia, Jensen Huang, riguardo all'addestramento decentralizzato dell'IA, definendo la nostra esecuzione di Covenant-72B "un risultato tecnico piuttosto folle." Una correzione: sono 72 miliardi di parametri, non quattro. Addestrato senza permesso da oltre 70 contributori su internet comune. Il modello più grande mai pre-addestrato su un'infrastruttura completamente decentralizzata. La risposta di Jensen merita di essere ascoltata.
@tplr_ai I Chads forniscono molte informazioni preziose sull'ecosistema Bittensor: @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @andyyy @eliz883
Karamata_ 💎
Karamata_ 💎19 ore fa
🔥 Esattamente. Templar ha cambiato il modo in cui penso all'infrastruttura AI. Non mi aspettavo molto dall'AI decentralizzata, ma vedere @tplr_ai addestrare un modello da 72B su 1.1T di token attraverso ~70 nodi senza permesso su Bittensor ( $TAO). Già questo è insolito, ma ciò che ha davvero cambiato la mia opinione è come sono riusciti a farlo funzionare. - A questa scala, l'addestramento è limitato dalla coordinazione. Normalmente stai spingendo ~280GB di dati per ogni passo di sincronizzazione tra i nodi, il che rende l'addestramento decentralizzato praticamente morto all'arrivo. - @tplr_ai ha compresso tutto a ~2.2GB e ha ridotto drasticamente la frequenza di sincronizzazione utilizzando SparseLoCo. Quando guardo a questo, vedo che stanno rimuovendo il collo di bottiglia principale che ha ucciso ogni tentativo precedente 🤯. Ecco perché penso che chiamare questo un momento DeepSeek non sia affatto esagerato. DeepSeek ha dimostrato che i modelli possono essere addestrati a costi inferiori. Templar dimostra che possono essere addestrati senza alcuna coordinazione centrale. -> Queste sono due direzioni molto diverse, e questa sembra strutturalmente più difficile da competere. Un altro segnale che non ignoro: quando persone come Jack Clark di Anthropic lo inquadrano pubblicamente come una vera infrastruttura: - Nella mia esperienza, quel tipo di validazione di solito arriva dopo che qualcosa funziona già, non prima. - Questo è ancora pre-addestramento. Il vero vantaggio nell'AI deriva dal post-addestramento, RLHF, cicli di allineamento, fondamentalmente dove i modelli diventano realmente utili. Templar si sta muovendo lì successivamente con Grail, e per me questo è il vero test. Se possono decentralizzare anche quel livello, allora non stiamo più parlando di calcolo decentralizzato, stanno parlando di una pipeline di produzione AI completamente senza permesso. Ciò che rende Templar distintivo per me è il tempismo e la direzione che hanno scelto. 1/ Hanno puntato sulla coordinazione quando l'intera industria AI sta silenziosamente raggiungendo limiti di scalabilità. - Questa è una scommessa molto diversa, e di solito coloro che attaccano i vincoli, non le tendenze, sono quelli che contano in seguito. 2/ Un altro catalizzatore che vedo è il design senza permesso. - La maggior parte dei sistemi AI decentralizzati ancora limita la partecipazione in qualche modo, il che uccide gli effetti di rete precocemente. - Templar è andata completamente aperta fin dall'inizio, il che significa che se questo modello funziona, non solo scala linearmente, ma si compone con più contributori, più esperimenti, più casi limite risolti in parallelo. Inoltre, il fatto che stiano costruendo verso il post-addestramento (livello RL) mi dice che comprendono dove si trova il vero valore. Il pre-addestramento attira l'attenzione, ma il post-addestramento è dove i modelli diventano utilizzabili, appiccicosi e monetizzabili. Se eseguono qui, iniziano a possedere parte del livello di intelligenza stesso. 3/ La mia previsione basata su questo: Nel breve termine, la maggior parte delle persone continuerà a sottovalutarlo perché il divario di qualità del modello rispetto ai laboratori centralizzati sarà l'argomento facile. Ma nel tempo, penso che Templar diventi: - uno strato backend per lo sviluppo AI aperto. - una rete di coordinazione per il calcolo distribuito. - e infine un mercato per il perfezionamento dell'intelligenza. Non dominante da un giorno all'altro, ma silenziosamente integrato ovunque. E se questo si realizza, il vantaggio deriva dal diventare il sistema su cui chiunque può costruire quando non vuole fare affidamento su @OpenAI.
@tplr_ai @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @eliz883 👍
3,35K