🔥 Exatamente. A Templar mudou a forma como penso sobre a infraestrutura de IA. Não esperava muito da IA descentralizada, mas ao ver @tplr_ai treinar um modelo de 72B em 1.1T de tokens em cerca de 70 nós sem permissão na Bittensor ( $TAO). Isso por si só já é incomum, mas o que realmente mudou a minha opinião foi como eles fizeram isso funcionar. - Nesta escala, o treinamento é limitado pela coordenação. Normalmente, você está a transferir cerca de ~280GB de dados por passo de sincronização entre os nós, o que torna o treinamento descentralizado basicamente inviável. - @tplr_ai comprimiram isso para cerca de ~2.2GB e reduziram massivamente a frequência de sincronização usando SparseLoCo. Quando olho para isso, vejo que estão a remover o gargalo central que destruiu todas as tentativas anteriores 🤯. É por isso que acho que chamar isso de um momento DeepSeek não é exagerado. O DeepSeek mostrou que os modelos podem ser treinados de forma mais barata. A Templar mostra que podem ser treinados sem coordenação central alguma. -> Essas são duas direções muito diferentes, e esta parece estruturalmente mais difícil de competir. Outro sinal que não ignoro: quando pessoas como Jack Clark da Anthropic o enquadram publicamente como uma infraestrutura real: - Na minha experiência, esse tipo de validação geralmente vem depois de algo já funcionar, não antes. - Isto ainda está em pré-treinamento. A verdadeira vantagem na IA vem do pós-treinamento, RLHF, ciclos de alinhamento, basicamente onde os modelos se tornam realmente úteis. A Templar está a avançar para lá a seguir com o Grail, e para mim esse é o verdadeiro teste. Se conseguirem descentralizar essa camada também, então já não estamos a falar de computação descentralizada, estão a falar de um pipeline de produção de IA totalmente sem permissão. O que faz a Templar destacar-se para mim é o timing e a direção que escolheram. 1/ Eles foram atrás da coordenação quando toda a indústria de IA está silenciosamente a atingir limites de escalabilidade. - Essa é uma aposta muito diferente, e geralmente aqueles que atacam as restrições, não as tendências, são os que importam mais tarde. 2/ Outro catalisador que vejo é o design sem permissão. - A maioria dos sistemas de IA descentralizada ainda restringe a participação de alguma forma, o que mata os efeitos de rede cedo. - A Templar foi totalmente aberta desde o início, o que significa que se este modelo funcionar, não apenas escala linearmente, mas compõe-se com mais contribuintes, mais experimentação, mais casos extremos a serem resolvidos em paralelo. Além disso, o fato de estarem a construir em direção ao pós-treinamento (camada RL) diz-me que entendem onde está o verdadeiro valor. O pré-treinamento recebe atenção, mas o pós-treinamento é onde os modelos se tornam utilizáveis, fixos e monetizáveis. Se conseguirem executar aqui, começam a possuir parte da camada de inteligência em si. 3/ A minha previsão com base nisso: A curto prazo, a maioria das pessoas ainda vai subestimar isso porque a diferença de qualidade do modelo em relação aos laboratórios centralizados será o argumento fácil. Mas com o tempo, acho que a Templar se torna: - uma camada de backend para desenvolvimento de IA aberta. - uma rede de coordenação para computação distribuída. - e eventualmente um mercado para refinamento de inteligência. Não dominante da noite para o dia, mas silenciosamente embutida em todo o lado. E se isso se concretizar, o potencial vem de se tornar o sistema que qualquer um pode construir quando não quer depender da @OpenAI.
templar
templar20/03, 04:01
No @theallinpod desta semana, @chamath perguntou ao CEO da @nvidia, Jensen Huang, sobre o treinamento de IA descentralizado, chamando a nossa execução do Covenant-72B de "uma realização técnica bastante louca." Uma correção: são 72 bilhões de parâmetros, não quatro. Treinado sem permissão por mais de 70 colaboradores na internet comum. O maior modelo já pré-treinado em infraestrutura totalmente descentralizada. A resposta do Jensen também vale a pena ouvir.
@tplr_ai Os Chads fornecem muita informação valiosa sobre o ecossistema Bittensor: @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @andyyy @eliz883
Karamata_ 💎
Karamata_ 💎Há 17 horas
🔥 Exatamente. A Templar mudou a forma como penso sobre a infraestrutura de IA. Não esperava muito da IA descentralizada, mas ao ver @tplr_ai treinar um modelo de 72B em 1.1T de tokens em cerca de 70 nós sem permissão na Bittensor ( $TAO). Isso por si só já é incomum, mas o que realmente mudou a minha opinião foi como eles fizeram isso funcionar. - Nesta escala, o treinamento é limitado pela coordenação. Normalmente, você está a transferir cerca de ~280GB de dados por passo de sincronização entre os nós, o que torna o treinamento descentralizado basicamente inviável. - @tplr_ai comprimiram isso para cerca de ~2.2GB e reduziram massivamente a frequência de sincronização usando SparseLoCo. Quando olho para isso, vejo que estão a remover o gargalo central que destruiu todas as tentativas anteriores 🤯. É por isso que acho que chamar isso de um momento DeepSeek não é exagerado. O DeepSeek mostrou que os modelos podem ser treinados de forma mais barata. A Templar mostra que podem ser treinados sem coordenação central alguma. -> Essas são duas direções muito diferentes, e esta parece estruturalmente mais difícil de competir. Outro sinal que não ignoro: quando pessoas como Jack Clark da Anthropic o enquadram publicamente como uma infraestrutura real: - Na minha experiência, esse tipo de validação geralmente vem depois de algo já funcionar, não antes. - Isto ainda está em pré-treinamento. A verdadeira vantagem na IA vem do pós-treinamento, RLHF, ciclos de alinhamento, basicamente onde os modelos se tornam realmente úteis. A Templar está a avançar para lá a seguir com o Grail, e para mim esse é o verdadeiro teste. Se conseguirem descentralizar essa camada também, então já não estamos a falar de computação descentralizada, estão a falar de um pipeline de produção de IA totalmente sem permissão. O que faz a Templar destacar-se para mim é o timing e a direção que escolheram. 1/ Eles foram atrás da coordenação quando toda a indústria de IA está silenciosamente a atingir limites de escalabilidade. - Essa é uma aposta muito diferente, e geralmente aqueles que atacam as restrições, não as tendências, são os que importam mais tarde. 2/ Outro catalisador que vejo é o design sem permissão. - A maioria dos sistemas de IA descentralizada ainda restringe a participação de alguma forma, o que mata os efeitos de rede cedo. - A Templar foi totalmente aberta desde o início, o que significa que se este modelo funcionar, não apenas escala linearmente, mas compõe-se com mais contribuintes, mais experimentação, mais casos extremos a serem resolvidos em paralelo. Além disso, o fato de estarem a construir em direção ao pós-treinamento (camada RL) diz-me que entendem onde está o verdadeiro valor. O pré-treinamento recebe atenção, mas o pós-treinamento é onde os modelos se tornam utilizáveis, fixos e monetizáveis. Se conseguirem executar aqui, começam a possuir parte da camada de inteligência em si. 3/ A minha previsão com base nisso: A curto prazo, a maioria das pessoas ainda vai subestimar isso porque a diferença de qualidade do modelo em relação aos laboratórios centralizados será o argumento fácil. Mas com o tempo, acho que a Templar se torna: - uma camada de backend para desenvolvimento de IA aberta. - uma rede de coordenação para computação distribuída. - e eventualmente um mercado para refinamento de inteligência. Não dominante da noite para o dia, mas silenciosamente embutida em todo o lado. E se isso se concretizar, o potencial vem de se tornar o sistema que qualquer um pode construir quando não quer depender da @OpenAI.
@tplr_ai @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @eliz883 👍
3,35K