Há muitos desenvolvimentos realmente empolgantes acontecendo no treinamento de IA descentralizada este ano. Aqui está minha opinião sobre por que o treinamento descentralizado está passando de "impossível" para "investido". 🧵👇
No início, o treinamento descentralizado era considerado impossível, dado o estado da arte dos protocolos de treinamento de IA. As empresas obtiveram resultados com hardware de alto desempenho em data centers de alto padrão — o treinamento em hardware de consumo em internet lenta parecia loucura, e o argumento era bem fundamentado tecnicamente.
No entanto, muito rapidamente o treinamento descentralizado foi demonstrado pelo exemplo. Algoritmos de "baixa comunicação" como o DiLoCo (desenvolvido na @GoogleDeepMind) foram usados por empresas como @PrimeIntellect, @NousResearch e @tplr_ai para demonstrar modelos treinados de forma distribuída. Esses algoritmos paralelos de dados mantêm todo o modelo na memória do nó e fragmentam os dados. Em outubro do ano passado, @Pluralis demonstrou a primeira execução *paralela modelo*, que pode quebrar um transformador em suas camadas reais para treinamento.
Muitas pessoas no mundo tradicional da IA, desde @jackclarkSF (cofundador da @AnthropicAI) até @beffjezos e organizações sem fins lucrativos de pesquisa em IA como @EpochAIResearch, estão prestando atenção ao treinamento descentralizado. A Epoch calculou que o processamento descentralizado de treinamento cresceu 20 vezes ano após ano. Embora ainda seja 1000 vezes menor que as corridas centralizadas da Frontier, está reduzindo essa diferença a uma taxa 4x maior.
235