DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Ihtesham

Investitore, scrittore, educatore e fan 🐉 di Dragon Ball

🚨 NVIDIA ha appena rilasciato un progetto per l'addestramento di modelli AI con trilioni di parametri. E spiega silenziosamente come la prossima generazione di modelli scalerà ben oltre gli LLM di oggi. Il documento introduce un sistema per l'addestramento di modelli Mixture-of-Experts (MoE) utilizzando Megatron Core, la stessa famiglia di infrastrutture utilizzata per addestrare alcuni dei modelli più grandi al mondo. L'idea chiave dietro MoE è semplice ma potente: Invece di attivare l'intero modello per ogni token, il sistema instrada ogni token solo a pochi "esperti" specializzati. Ciò significa che puoi scalare enormemente il numero totale di parametri senza aumentare il calcolo per ogni token. In teoria, questo ti dà: • Capacità da trilioni di parametri • Calcolo a livello di modello denso per token • Guadagni di efficienza massivi Ma nella pratica, rompe tutto. L'addestramento dei modelli MoE crea un incubo attraverso tre strati di sistema: Memoria. Comunicazione. Computazione. Ottimizza uno e blocchi gli altri. La soluzione di NVIDIA è essenzialmente un co-design full-stack dell'intero pipeline di addestramento. Hanno introdotto molteplici ottimizzazioni a livello di sistema: • Ricalcolo fine-grained e scarico della memoria per controllare la pressione della memoria GPU • Dispatcher di token ottimizzati in modo che i token possano essere instradati tra gli esperti in modo efficiente • GEMM raggruppati + Grafi CUDA per massimizzare l'utilizzo della computazione GPU • Piegatura parallela, che consente un parallelismo multidimensionale flessibile tra le GPU • Addestramento a bassa precisione (FP8 / NVFP4) per ridurre drasticamente il costo di calcolo Tutto questo funziona all'interno di Megatron Core, il stack di addestramento di modelli grandi open-source di NVIDIA. I numeri delle prestazioni sono assurdi. Sui più recenti sistemi GPU di NVIDIA: • 1.233 TFLOPS per GPU addestrando DeepSeek-V3-685B • 974 TFLOPS per GPU addestrando Qwen3-235B E il framework già scala su migliaia di GPU in cluster di produzione. La storia più grande qui non è solo un addestramento più veloce. È la direzione dell'architettura AI. I modelli densi scalano linearmente con il calcolo. I modelli MoE scalano quasi esponenzialmente con i parametri mantenendo il calcolo gestibile. Ecco come ottieni: 100B → 1T → 10T modelli di parametri. Stesso budget di calcolo. Solo instradamento più intelligente. Se la prossima ondata di modelli di frontiera esplode di nuovo in dimensioni, questo documento spiega esattamente come verranno addestrati. Documento: Addestramento Scalabile di Modelli Mixture-of-Experts con Megatron Core

Principali

Ranking

Preferiti