🔥 Exacto. Templar cambió mi forma de pensar sobre la infraestructura de IA. No esperaba mucho de una IA descentralizada, pero ver @tplr_ai entrenar un modelo 72B con tokens 1.1T a través de ~70 nodos sin permisos en Bittensor ($TAO). Eso ya es raro, pero lo que realmente me hizo cambiar de opinión fue cómo lo consiguieron. - A esta escala, la formación está limitada por la coordinación. Normalmente estás empujando ~280GB de datos por paso de sincronización entre nodos, lo que hace que el entrenamiento descentralizado quede prácticamente muerto al llegar. - @tplr_ai comprimido eso a ~2,2GB y redujo la frecuencia de sincronización masivamente usando SparseLoCo. Cuando veo eso, veo que eliminan el cuello de botella central que había matado todos los intentos 🤯 anteriores. Por eso creo que llamar a esto un momento DeepSeek no está exagerado. DeepSeek demostró que los modelos pueden entrenarse más barato. Templar demuestra que pueden ser entrenados sin coordinación central en absoluto. -> Son dos direcciones muy diferentes, y esta se siente estructuralmente más difícil de competir. Otra señal que no ignoro: cuando personas como Jack Clark de Anthropic lo presentan públicamente como infra real: - En mi experiencia, ese tipo de validación suele venir después de que algo ya funciona, no antes. - Esto sigue siendo pre-entrenamiento. La verdadera ventaja en IA viene del post-entrenamiento, RLHF, bucles de alineación, básicamente donde los modelos se vuelven realmente útiles. Templar se muda allí con Grail, y para mí esa es la verdadera prueba. Si también pueden descentralizar esa capa, entonces ya no estamos hablando de computación descentralizada, sino de una cadena de producción de IA totalmente sin permisos. Lo que hace que Templar destaque para mí es el momento y la dirección que eligieron. 1/ Fueron a por la coordinación cuando toda la industria de la IA está alcanzando silenciosamente los límites de escalado. - Eso es una apuesta muy diferente, y normalmente los que atacan las restricciones, no las tendencias, son los que importan después. 2/ Otro catalizador que veo es el diseño sin permisos. - La mayoría de los sistemas de IA descentralizados siguen bloqueando la participación de alguna manera, lo que elimina los efectos de red prematuramente. - Templar se abrió completamente desde el principio, lo que significa que si este modelo funciona, no solo escala linealmente, sino que se compone con más contribuyentes, más experimentación y más casos límite resueltos en paralelo. Además, el hecho de que estén construyendo hacia el post-entrenamiento (capa RL) me dice que entienden dónde está el verdadero valor. El preentrenamiento llama la atención, pero es cuando los modelos se vuelven utilizables, pegajosos y monetizables. Si ejecutan aquí, empiezan a poseer parte de la propia capa de inteligencia. 3/ Mi predicción basada en esto: A corto plazo, la mayoría de la gente seguirá subestimándolo porque la diferencia de calidad de los modelos frente a los laboratorios centralizados será el argumento fácil. Pero con el tiempo, creo que Templar se convierte en: - una capa backend para el desarrollo abierto de IA. - una red de coordinación para computación distribuida. - y finalmente un mercado para el refinamiento de la inteligencia. No dominante de la noche a la mañana, sino silenciosamente incrustada en todas partes. Y si eso se cumple, la ventaja viene de convertirse en el sistema sobre el que cualquiera puede construir cuando no quiera depender de @OpenAI en absoluto.
templar
templar20 mar, 04:01
El @theallinpod de esta semana, @chamath preguntó al CEO de @nvidia, Jensen Huang, sobre el entrenamiento descentralizado de IA, calificando nuestra carrera con el Covenant-72B como "un logro técnico bastante loco". Una corrección: son 72 mil millones de parámetros, no cuatro. Entrenado sin permisos entre 70+ colaboradores en internet de mercancías. El modelo más grande jamás entrenado previamente en infraestructura totalmente descentralizada. La respuesta de Jensen también merece la pena escucharla.
@tplr_ai Chads aportan mucha información valiosa sobre el ecosistema Bittensor: @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @andyyy @eliz883
Karamata_ 💎
Karamata_ 💎hace 19 horas
🔥 Exacto. Templar cambió mi forma de pensar sobre la infraestructura de IA. No esperaba mucho de una IA descentralizada, pero ver @tplr_ai entrenar un modelo 72B con tokens 1.1T a través de ~70 nodos sin permisos en Bittensor ($TAO). Eso ya es raro, pero lo que realmente me hizo cambiar de opinión fue cómo lo consiguieron. - A esta escala, la formación está limitada por la coordinación. Normalmente estás empujando ~280GB de datos por paso de sincronización entre nodos, lo que hace que el entrenamiento descentralizado quede prácticamente muerto al llegar. - @tplr_ai comprimido eso a ~2,2GB y redujo la frecuencia de sincronización masivamente usando SparseLoCo. Cuando veo eso, veo que eliminan el cuello de botella central que había matado todos los intentos 🤯 anteriores. Por eso creo que llamar a esto un momento DeepSeek no está exagerado. DeepSeek demostró que los modelos pueden entrenarse más barato. Templar demuestra que pueden ser entrenados sin coordinación central en absoluto. -> Son dos direcciones muy diferentes, y esta se siente estructuralmente más difícil de competir. Otra señal que no ignoro: cuando personas como Jack Clark de Anthropic lo presentan públicamente como infra real: - En mi experiencia, ese tipo de validación suele venir después de que algo ya funciona, no antes. - Esto sigue siendo pre-entrenamiento. La verdadera ventaja en IA viene del post-entrenamiento, RLHF, bucles de alineación, básicamente donde los modelos se vuelven realmente útiles. Templar se muda allí con Grail, y para mí esa es la verdadera prueba. Si también pueden descentralizar esa capa, entonces ya no estamos hablando de computación descentralizada, sino de una cadena de producción de IA totalmente sin permisos. Lo que hace que Templar destaque para mí es el momento y la dirección que eligieron. 1/ Fueron a por la coordinación cuando toda la industria de la IA está alcanzando silenciosamente los límites de escalado. - Eso es una apuesta muy diferente, y normalmente los que atacan las restricciones, no las tendencias, son los que importan después. 2/ Otro catalizador que veo es el diseño sin permisos. - La mayoría de los sistemas de IA descentralizados siguen bloqueando la participación de alguna manera, lo que elimina los efectos de red prematuramente. - Templar se abrió completamente desde el principio, lo que significa que si este modelo funciona, no solo escala linealmente, sino que se compone con más contribuyentes, más experimentación y más casos límite resueltos en paralelo. Además, el hecho de que estén construyendo hacia el post-entrenamiento (capa RL) me dice que entienden dónde está el verdadero valor. El preentrenamiento llama la atención, pero es cuando los modelos se vuelven utilizables, pegajosos y monetizables. Si ejecutan aquí, empiezan a poseer parte de la propia capa de inteligencia. 3/ Mi predicción basada en esto: A corto plazo, la mayoría de la gente seguirá subestimándolo porque la diferencia de calidad de los modelos frente a los laboratorios centralizados será el argumento fácil. Pero con el tiempo, creo que Templar se convierte en: - una capa backend para el desarrollo abierto de IA. - una red de coordinación para computación distribuida. - y finalmente un mercado para el refinamiento de la inteligencia. No dominante de la noche a la mañana, sino silenciosamente incrustada en todas partes. Y si eso se cumple, la ventaja viene de convertirse en el sistema sobre el que cualquiera puede construir cuando no quiera depender de @OpenAI en absoluto.
@tplr_ai @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @eliz883 👍
3.35K