Hay muchos desarrollos realmente emocionantes en el entrenamiento de IA descentralizada este año. Aquí está mi opinión sobre por qué el entrenamiento descentralizado está pasando de "imposible" a "invertible". 🧵👇
Al principio, se consideraba imposible el entrenamiento descentralizado dado el estado del arte de los protocolos de entrenamiento de IA. Las empresas obtenían resultados de hardware de alta gama en centros de datos de alta gama; entrenar en hardware de consumo con internet de consumo lento parecía una locura, y el argumento estaba bien razonado técnicamente.
Sin embargo, muy rápidamente se demostró el entrenamiento descentralizado por ejemplo. Algoritmos de "baja comunicación" como DiLoCo (desarrollado en @GoogleDeepMind) fueron utilizados por empresas como @PrimeIntellect, @NousResearch y @tplr_ai para demostrar modelos entrenados de manera distribuida. Estos algoritmos de paralelismo de datos mantienen todo el modelo en la memoria del nodo y dividen los datos. En octubre del año pasado, @Pluralis demostró la primera ejecución *paralela de modelo*, que puede dividir un transformador en sus capas reales para el entrenamiento.
Muchas personas en el mundo tradicional de la IA, desde @jackclarkSF (cofundador de @AnthropicAI) hasta @beffjezos y organizaciones sin fines de lucro de investigación en IA como @EpochAIResearch, están prestando atención al entrenamiento descentralizado. Epoch ha calculado que el cómputo de entrenamiento descentralizado ha crecido 20 veces año tras año. Aunque todavía es 1000 veces más pequeño que las ejecuciones centralizadas de frontera, está cerrando esa brecha a 4 veces la velocidad.
188