Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ihtesham
Investitore, scrittore, educatore e fan 🐉 di Dragon Ball
Uno studente di CS al MIT ha concluso il suo ultimo semestre con un GPA di 4.0.
Ho trovato il suo flusso di lavoro NotebookLM sepolto in un thread di Reddit alle 2 del mattino. L'ha cancellato un'ora dopo.
Ecco esattamente cosa stava facendo.
Non ha mai caricato le diapositive delle lezioni e ha chiesto un riassunto.
Il suo primo prompt era sempre: "Ecco i miei appunti, il capitolo del libro di testo e gli esami dell'anno scorso. Dammi i 3 modi in cui i professori ingannano gli studenti sugli esami con questo concetto. Poi genera un problema che combini tutto ciò che abbiamo trattato nelle ultime 3 settimane."
Non stava studiando il materiale.
Stava studiando come il materiale viene usato contro di te.
Ma la mossa che mi ha fatto chiudere il laptop e fissare il soffitto è stata la sua seconda.
Ha caricato ogni singolo compito che aveva sbagliato durante il semestre.
Poi ha chiesto: "Trova il modello nei miei errori. Qual è il concetto che continuo a fraintendere in forme diverse?"
Ogni altro studente stava usando NotebookLM come un motore di ricerca.
Lui lo stava usando come uno specchio.
Il suo terzo prompt era salvato come un collegamento sul suo telefono.
"In base ai miei appunti e a questi esami passati, quale argomento sono meno preparato in questo momento? Dammi le 5 domande che è più probabile che appaiano nel mio finale e a cui non posso ancora rispondere."
Tre prompt. Ogni singola settimana.
Mentre i suoi compagni di classe rileggevano le diapositive la notte prima degli esami finali, lui sapeva già esattamente dove sarebbe andato a fallire.
Poi lo ha sistemato.
Non ha studiato di più.
Non si è mai lasciato sentire a proprio agio.

🚨 NVIDIA ha appena rilasciato un progetto per l'addestramento di modelli AI con trilioni di parametri.
E spiega silenziosamente come la prossima generazione di modelli scalerà ben oltre gli LLM di oggi.
Il documento introduce un sistema per l'addestramento di modelli Mixture-of-Experts (MoE) utilizzando Megatron Core, la stessa famiglia di infrastrutture utilizzata per addestrare alcuni dei modelli più grandi al mondo.
L'idea chiave dietro MoE è semplice ma potente:
Invece di attivare l'intero modello per ogni token, il sistema instrada ogni token solo a pochi "esperti" specializzati.
Ciò significa che puoi scalare enormemente il numero totale di parametri senza aumentare il calcolo per ogni token.
In teoria, questo ti dà:
• Capacità da trilioni di parametri
• Calcolo a livello di modello denso per token
• Guadagni di efficienza massivi
Ma nella pratica, rompe tutto.
L'addestramento dei modelli MoE crea un incubo attraverso tre strati di sistema:
Memoria. Comunicazione. Computazione.
Ottimizza uno e blocchi gli altri.
La soluzione di NVIDIA è essenzialmente un co-design full-stack dell'intero pipeline di addestramento.
Hanno introdotto molteplici ottimizzazioni a livello di sistema:
• Ricalcolo fine-grained e scarico della memoria per controllare la pressione della memoria GPU
• Dispatcher di token ottimizzati in modo che i token possano essere instradati tra gli esperti in modo efficiente
• GEMM raggruppati + Grafi CUDA per massimizzare l'utilizzo della computazione GPU
• Piegatura parallela, che consente un parallelismo multidimensionale flessibile tra le GPU
• Addestramento a bassa precisione (FP8 / NVFP4) per ridurre drasticamente il costo di calcolo
Tutto questo funziona all'interno di Megatron Core, il stack di addestramento di modelli grandi open-source di NVIDIA.
I numeri delle prestazioni sono assurdi.
Sui più recenti sistemi GPU di NVIDIA:
• 1.233 TFLOPS per GPU addestrando DeepSeek-V3-685B
• 974 TFLOPS per GPU addestrando Qwen3-235B
E il framework già scala su migliaia di GPU in cluster di produzione.
La storia più grande qui non è solo un addestramento più veloce.
È la direzione dell'architettura AI.
I modelli densi scalano linearmente con il calcolo.
I modelli MoE scalano quasi esponenzialmente con i parametri mantenendo il calcolo gestibile.
Ecco come ottieni:
100B → 1T → 10T modelli di parametri.
Stesso budget di calcolo.
Solo instradamento più intelligente.
Se la prossima ondata di modelli di frontiera esplode di nuovo in dimensioni, questo documento spiega esattamente come verranno addestrati.
Documento: Addestramento Scalabile di Modelli Mixture-of-Experts con Megatron Core

2
Principali
Ranking
Preferiti

