Há muitos desenvolvimentos realmente empolgantes a acontecer no treinamento descentralizado de IA este ano. Aqui está a minha opinião sobre por que o treinamento descentralizado está passando de "impossível" para "investível". 🧵👇
No início, o treinamento descentralizado era considerado impossível, dado o estado da arte dos protocolos de treinamento de IA. As empresas obtinham resultados a partir de hardware de ponta em data centers de alto nível -- treinar em hardware de consumo com internet lenta parecia loucura, e o argumento era bem fundamentado tecnicamente.
No entanto, muito rapidamente, o treinamento descentralizado foi demonstrado por exemplo. Algoritmos de "baixa comunicação" como o DiLoCo (desenvolvido na @GoogleDeepMind) foram utilizados por empresas como @PrimeIntellect, @NousResearch e @tplr_ai para demonstrar modelos treinados de forma distribuída. Esses algoritmos de paralelismo de dados mantêm todo o modelo na memória do nó e dividem os dados. Em outubro do ano passado, a @Pluralis demonstrou a primeira execução *paralela de modelo*, que pode dividir um transformador em suas camadas reais para treinamento.
Muitas pessoas no mundo tradicional da IA, desde @jackclarkSF (co-fundador da @AnthropicAI) até @beffjezos e organizações sem fins lucrativos de pesquisa em IA como @EpochAIResearch, estão prestando atenção ao treinamento descentralizado. A Epoch calculou que o poder computacional para treinamento descentralizado cresceu 20x ano após ano. Embora ainda seja 1000x menor do que as execuções centralizadas de fronteira, está fechando essa lacuna a uma taxa de 4x.
191