Este año hay muchos desarrollos realmente emocionantes en el entrenamiento de IA descentralizada. Esta es mi opinión sobre por qué la formación descentralizada está pasando de ser "imposible" a "invertible". 🧵👇
Al principio, el entrenamiento descentralizado se consideraba imposible dado el estado del arte de los protocolos de entrenamiento de IA. Las empresas obtuvieron resultados de hardware de alta gama en centros de datos de alta gama — entrenar en hardware de consumo en internet lento parecía una locura, y el argumento estaba bien fundamentado técnicamente.
Sin embargo, muy pronto se demostró la formación descentralizada con el ejemplo. Algoritmos de "baja comunicación" como DiLoCo (desarrollado en @GoogleDeepMind) fueron utilizados por empresas como @PrimeIntellect, @NousResearch y @tplr_ai para demostrar modelos entrenados de forma distribuida. Estos algoritmos paralelos de datos mantienen todo el modelo en la memoria del nodo y descomponen los datos. En octubre del año pasado, @Pluralis demostró la primera ejecución *paralela modelo*, que puede descomponer un transformador en sus capas reales para entrenamiento.
Mucha gente en el mundo tradicional de la IA, desde @jackclarkSF (cofundador de @AnthropicAI) hasta @beffjezos y organizaciones sin ánimo de lucro de investigación en IA como @EpochAIResearch, están prestando atención a la formación descentralizada. Epoch ha calculado que el cálculo de entrenamiento descentralizado ha crecido 20 veces año tras año. Aunque sigue siendo mil veces más pequeño que las partidas centralizadas de Frontier, está cerrando esa brecha a 4 veces más rápido.
209