DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Zhuokai Zhao

Ricercatore @Meta Costruisco e studio LLM e agenti Condividiamo pensieri su ragionamento, RL e intelligenza scalabile Dottorato in Informatica @UChicagoCS

AMI Labs ha appena raccolto 1,03 miliardi di dollari. World Labs ha raccolto 1 miliardo di dollari poche settimane prima. Entrambi scommettono sui modelli del mondo. Ma quasi nessuno intende la stessa cosa con quel termine. Ecco, a mio avviso, cinque categorie di modelli del mondo. --- 1. Architettura Predittiva di Embedding Congiunto (JEPA) Rappresentanti: AMI Labs (@ylecun), V-JEPA 2 La scommessa centrale qui è che la ricostruzione dei pixel da sola è un obiettivo inefficiente per apprendere le astrazioni necessarie per la comprensione fisica. LeCun lo dice da anni: prevedere ogni pixel del futuro è inestricabile in qualsiasi ambiente stocastico. JEPA evita questo prevedendo in uno spazio latente appreso. Concretamente, JEPA addestra un codificatore che mappa i frammenti video a rappresentazioni, poi un predittore che prevede le regioni mascherate in quello spazio di rappresentazione — non nello spazio dei pixel. Questa è una scelta di design cruciale. Un modello generativo che ricostruisce i pixel è costretto a impegnarsi in dettagli a basso livello (testura esatta, illuminazione, posizione delle foglie) che sono intrinsecamente imprevedibili. Operando su embedding astratti, JEPA può catturare "la palla cadrà dal tavolo" senza dover allucinare ogni fotogramma di essa che cade. V-JEPA 2 è il punto di prova su larga scala più chiaro finora. È un modello da 1,2 miliardi di parametri pre-addestrato su oltre 1 milione di ore di video tramite previsione mascherata auto-supervisionata — nessuna etichetta, nessun testo. La seconda fase di addestramento è dove diventa interessante: solo 62 ore di dati robotici dal dataset DROID sono sufficienti per produrre un modello del mondo condizionato all'azione che supporta la pianificazione zero-shot. Il robot genera sequenze di azioni candidate, le fa avanzare attraverso il modello del mondo e sceglie quella il cui risultato previsto corrisponde meglio a un'immagine obiettivo. Questo funziona su oggetti e ambienti mai visti durante l'addestramento. L'efficienza dei dati è il vero titolo tecnico. 62 ore sono quasi nulla. Suggerisce che il pre-addestramento auto-supervisionato su video diversi può avviare abbastanza conoscenza fisica prioritaria che è necessario molto poco dato specifico del dominio a valle. Questo è un forte argomento a favore del design JEPA: se le tue rappresentazioni sono abbastanza buone, non hai bisogno di affrontare ogni compito da zero. AMI Labs è lo sforzo di LeCun per spingere questo oltre la ricerca. Stanno puntando prima alla sanità e alla robotica, il che ha senso dato che la forza di JEPA è nel ragionamento fisico con dati limitati. Ma questa è una scommessa a lungo termine: il loro CEO ha detto apertamente che i prodotti commerciali potrebbero essere a anni di distanza. --- 2. Intelligenza Spaziale (Modelli del Mondo 3D) Rappresentante: World Labs (@drfeifei) Dove JEPA chiede "cosa succederà dopo", l'approccio di Fei-Fei Li chiede "come appare il mondo in 3D e come posso costruirlo?" La tesi è che una vera comprensione richiede una struttura spaziale esplicita — geometria, profondità, persistenza e la capacità di rivedere una scena da nuovi punti di vista — non solo previsione temporale. Questa è una scommessa diversa da JEPA: piuttosto che apprendere dinamiche astratte, si apprende una rappresentazione 3D strutturata dell'ambiente che si può manipolare direttamente. Il loro prodotto Marble genera ambienti 3D persistenti da immagini, testo, video o layout 3D. "Persistente" è la parola chiave: a differenza di un modello di generazione video che produce una sequenza lineare di fotogrammi, le uscite di Marble sono scene 3D reali con coerenza spaziale. Puoi orbitare la telecamera, modificare oggetti, esportare mesh. Questo lo avvicina a uno strumento di creazione 3D piuttosto che a un modello predittivo, il che è deliberato. Per contesto, questo si basa su una linea di lavoro di rappresentazione 3D neurale (NeRFs, 3D Gaussian Splatting) ma spinge verso la generazione piuttosto che la ricostruzione. Invece di catturare una scena reale da foto multi-vista, Marble sintetizza nuove scene plausibili da input sparsi. La sfida è mantenere la plausibilità fisica — geometria coerente, illuminazione ragionevole, occlusione sensata — attraverso un mondo generato che non è mai esistito. --- 3. Simulazione Appresa (Video Generativo + RL nello Spazio Latente) Rappresentanti: Google DeepMind (Genie 3, Dreamer V3/V4), Runway GWM-1 Questa categoria raggruppa due linee che si stanno rapidamente convergendo: modelli video generativi che apprendono a simulare mondi interattivi e agenti RL che apprendono modelli del mondo per addestrare politiche nell'immaginazione. La linea di generazione video. Genie 3 di DeepMind è la versione più pura — prompt di testo in, ambiente navigabile fuori, 24 fps a 720p, con coerenza per alcuni minuti. Piuttosto che fare affidamento su un simulatore esplicito costruito a mano, apprende dinamiche interattive dai dati. La chiave architettonica è la generazione autoregressiva condizionata sulle azioni dell'utente: ogni fotogramma è generato in base a tutti i fotogrammi precedenti più l'input attuale (muovi a sinistra, guarda in alto, ecc.). Questo significa che il modello deve mantenere una memoria spaziale implicita: allontanati da un albero e torna indietro, e deve ancora esserci. DeepMind riporta coerenza fino a circa un minuto, il che è impressionante ma ancora lontano da ciò di cui avresti bisogno per un addestramento sostenuto dell'agente. GWM-1 di Runway prende una base simile — previsione di fotogrammi autoregressiva costruita su Gen-4.5 — ma si divide in tre prodotti: Mondi, Robotica e Avatar. La divisione in Mondi / Avatar / Robotica suggerisce che il problema della generalità pratica è ancora in fase di decomposizione per spazio d'azione e caso d'uso. La linea RL. La serie Dreamer ha una storia intellettuale più lunga. L'idea centrale è chiara: apprendere un modello di dinamiche latenti dalle osservazioni, poi sviluppare traiettorie immaginate nello spazio latente e ottimizzare una politica tramite retropropagazione attraverso le previsioni del modello. L'agente non ha mai bisogno di interagire con l'ambiente reale durante l'apprendimento della politica. Dreamer V3 è stato il primo AI a ottenere diamanti in Minecraft senza dati umani. Dreamer 4 ha fatto lo stesso puramente offline — nessuna interazione con l'ambiente. Architettonicamente, Dreamer 4 passa dalla precedente linea ricorrente di Dreamer a una ricetta di modello del mondo basata su transformer più scalabile e introduce "shortcut forcing" — un obiettivo di addestramento che consente al modello di passare da previsioni rumorose a pulite in sole 4 fasi invece delle 64 tipiche nei modelli di diffusione. Questo è ciò che rende possibile l'inferenza in tempo reale su un singolo H100. Queste due sotto-linee sembravano distinte: la generazione video produce ambienti visivi, mentre i modelli del mondo RL producono politiche addestrate. Ma Dreamer 4 ha sfumato la linea — gli esseri umani possono ora giocare all'interno del suo modello del mondo in modo interattivo, e Genie 3 viene utilizzato per addestrare gli agenti SIMA di DeepMind. Il punto di convergenza è che entrambi hanno bisogno della stessa cosa: un modello che possa simulare accuratamente come le azioni influenzano gli ambienti su orizzonti estesi. La domanda aperta per questa intera categoria è una che LeCun continua a sollevare: imparare a generare pixel che sembrano fisicamente corretti significa davvero che il modello comprende la fisica? O è solo un abbinamento di pattern? La capacità di Dreamer 4 di ottenere diamanti in Minecraft dalla pura immaginazione è un forte controargomento empirico, ma è anche un gioco con meccaniche discrete e apprendibili — il mondo reale è più disordinato. --- 4. Infrastruttura AI Fisica (Piattaforma di Simulazione) Rappresentante: NVIDIA Cosmos Il gioco di NVIDIA è non costruire il modello del mondo, ma costruire la piattaforma che tutti gli altri usano per costruire i propri. Cosmos è stato lanciato al CES di gennaio 2025 e copre l'intero stack — pipeline di curazione dei dati (elaborare 20 milioni di ore di video in 14 giorni su Blackwell, rispetto a oltre 3 anni su CPU), un tokenizer visivo con 8 volte migliore compressione rispetto al precedente SOTA, addestramento del modello tramite NeMo e distribuzione tramite microservizi NIM. I modelli fondazione del mondo pre-addestrati sono stati addestrati su 9.000 trilioni di token da 20 milioni di ore di video del mondo reale che spaziano dalla guida, all'industriale, alla robotica e ai dati sulle attività umane. Vengono in due famiglie architettoniche: basate su diffusione (operanti su token latenti continui) e basate su transformer autoregressivi (previsione del token successivo su token discretizzati). Entrambi possono essere affinati per domini specifici. Tre famiglie di modelli si trovano sopra a questo. Predict genera stati video futuri da input di testo, immagine o video — essenzialmente previsione video che può essere post-addestrata per scenari specifici di robot o guida. Transfer gestisce l'adattamento dominio sim-to-real, che è uno dei mal di testa persistenti nell'AI fisica — il tuo modello funziona benissimo in simulazione ma si rompe nel mondo reale a causa di lacune visive e dinamiche. Reason (aggiunto a GTC 2025) porta il ragionamento a catena di pensiero su scene fisiche — consapevolezza spaziotemporale, comprensione causale delle interazioni, video Q&A. --- 5. Inferenza Attiva Rappresentante: VERSES AI (Karl Friston) Questo è l'eccezione nella lista — non proviene affatto dalla tradizione del deep learning, ma dalla neuroscienza computazionale. Il Principio dell'Energia Libera di Karl Friston afferma che i sistemi intelligenti generano continuamente previsioni sul loro ambiente e agiscono per minimizzare la sorpresa (tecnicamente: energia libera variabile, un limite superiore sulla sorpresa). Dove il RL standard è solitamente inquadrato attorno alla massimizzazione della ricompensa, l'inferenza attiva inquadra il comportamento come minimizzazione dell'energia libera variabile / attesa, che mescola preferenze orientate agli obiettivi con valore epistemico. Questo porta a un comportamento di esplorazione naturale: l'agente è attratto da situazioni in cui è incerto, perché risolvere l'incertezza riduce l'energia libera. VERSES ha costruito AXIOM (Inferenza Attiva eXpanding con Modelli Centrici sugli Oggetti) su questa base. L'architettura è fondamentalmente diversa dai modelli del mondo delle reti neurali. Invece di apprendere un approssimatore di funzione monolitico, AXIOM mantiene un modello generativo strutturato in cui ogni entità nell'ambiente è un oggetto discreto con attributi e relazioni tipizzati. L'inferenza è bayesiana: le credenze sono distribuzioni di probabilità che vengono aggiornate tramite passaggio di messaggi, non discesa del gradiente. Questo la rende interpretabile (puoi ispezionare ciò che l'agente crede su ogni oggetto), compositiva (aggiungi un nuovo tipo di oggetto senza riaddestrare) e estremamente efficiente in termini di dati. Nel loro lavoro di robotica, hanno mostrato un setup multi-agente gerarchico in cui ogni giunto di un braccio robotico è il proprio agente di inferenza attiva. Gli agenti a livello di giunto gestiscono il controllo motorio locale mentre gli agenti a livello superiore gestiscono la pianificazione dei compiti, tutti coordinandosi attraverso credenze condivise in una gerarchia. L'intero sistema si adatta in tempo reale a ambienti sconosciuti senza riaddestramento — sposti l'oggetto target e l'agente riprogramma immediatamente, perché sta facendo inferenza online, non eseguendo una politica fissa. Hanno lanciato un prodotto commerciale (Genius) nell'aprile 2025, e i benchmark di AXIOM contro le basi RL sono competitivi in compiti di controllo standard utilizzando ordini di grandezza meno dati. --- In sintesi, queste cinque categorie non sono davvero in competizione — stanno risolvendo diversi sotto-problemi. JEPA comprime la comprensione fisica. L'intelligenza spaziale ricostruisce la struttura 3D. La simulazione appresa addestra gli agenti attraverso esperienze generate. NVIDIA fornisce gli attrezzi. L'inferenza attiva offre una teoria computazionale dell'intelligenza fondamentalmente diversa. La mia ipotesi è che le linee tra di loro si sfumino rapidamente.

L'esplorazione delle architetture LLM ha in gran parte convergente. Ho esaminato il codice dei trasformatori di HuggingFace per il nuovo GLM-5 rilasciato da @Zai_org (zai-org/GLM-5). Ecco un'analisi architettonica dettagliata e cosa ci dice su dove sta andando il design degli LLM. TL;DR: Architettonicamente, GLM-5 segue da vicino DeepSeek-V3 con piccole regolazioni. ATTENZIONE: MLA sostituisce GQA Il cambiamento più grande da GLM-4.7 a GLM-5 è l'attenzione. GLM-4.7 utilizzava l'attenzione standard Grouped Query Attention (GQA) con 96 teste Q, 8 teste KV, proiezioni q/k/v separate. GLM-5 elimina tutto ciò e adotta l'attenzione latente multi-testa (MLA) di DeepSeek. Nella pipeline MLA, le query passano attraverso una proiezione a due stadi in stile LoRA: hidden -> q_a_proj per rango 2048 -> RMSNorm -> q_b_proj per 64 teste * 256 dim. Le chiavi e i valori sono compressi insieme in un unico collo di bottiglia a basso rango: hidden -> kv_a_proj per rango 512+64 -> diviso in un percorso KV latente e un percorso RoPE. La parte latente viene espansa di nuovo tramite kv_b_proj in 64 teste di (192 nope + 256 valore) dim. Questo è esattamente lo stesso design MLA di DeepSeek-V3. GLM-5 semplicemente regola le dimensioni: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128. Il kv_lora_rank (512) e il qk_rope_head_dim (64) sono identici. Inoltre, nessun bias ovunque nell'attenzione (attention_bias predefinito su False). Ogni proiezione (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj e tutte le proiezioni dell'indicizzatore DSA) è priva di bias. Questa è ora prassi standard; tra i principali modelli rilasciati nel 2025, solo GPT-oss utilizza ancora il bias di attenzione. DSA: L'attenzione sparsa di DeepSeek GLM-5 adotta l'attenzione sparsa nativa di DeepSeek V3.2 (DSA) — questa è l'unica caratteristica architettonica che @Zai_org ha evidenziato esplicitamente. La classe di attenzione porta componenti indicizzatori dedicati: wq_b, wk, k_norm e weights_proj, utilizzati per selezionare i 2048 token più rilevanti (index_topk=2048) per ogni passo di attenzione invece di prestare attenzione all'intero contesto. ROUTING MoE: Stessa Ricetta e Stessi Numeri 256 esperti indirizzati + 1 esperto condiviso. Stesso numero di DeepSeek-V3 su entrambi i fronti; in aumento rispetto ai 128 esperti indirizzati di GLM-4.7. Finora, solo la serie Qwen-3 ha rimosso l'esperto condiviso — tutti gli altri ne mantengono uno. Top-8 esperti selezionati per token (num_experts_per_tok=8). Routing basato su sigmoid (non softmax) con e_score_correction_bias per bilanciamento del carico — nessuna perdita ausiliaria, esattamente come DeepSeek-V3. I pesi top-k sono normalizzati (norm_topk_prob=True), quindi scalati da routed_scaling_factor = 2.5 — identico a DeepSeek-V3 (GLM-4.7 utilizzava 1.0). moe_intermediate_size = 2048, anche identico a DeepSeek-V3. Una semplificazione rispetto a DeepSeek-V3: GLM-5 elimina completamente la selezione di esperti raggruppati (n_group=1, topk_group=1). DeepSeek-V3 divide 256 esperti in 8 gruppi di 32 e seleziona i top-4 gruppi prima di scegliere esperti al loro interno. GLM-5 salta questo e fa semplicemente un top-8 piatto su tutti i 256. Questo è coerente con l'approccio di GLM-4.7 — suggerendo che il routing raggruppato potrebbe non essere essenziale. FFN / MLP: SwiGLU, denso-then-MoE Tutti i livelli feed-forward (FFN) utilizzano SwiGLU (unità lineare gated con attivazione SiLU), senza bias in alcuna proiezione. Questo si applica a FFN densi, esperti indirizzati e esperti condivisi allo stesso modo. I 78 livelli seguono uno schema denso-then-MoE: i primi 3 livelli utilizzano un FFN denso standard (intermediate_size=12288), e i restanti 75 livelli sono tutti MoE — nessun interleaving denso/MoE all'interno della regione MoE. DeepSeek-V3 utilizza lo stesso split 3-denso-then-MoE. GLM-4.7 utilizzava solo 1 livello denso iniziale. All'interno di ciascun livello MoE, l'output è la somma di due parti: (1) la miscela di esperti indirizzati (top-8 su 256, ciascuno con intermediate_size=2048), e (2) un esperto condiviso (anch'esso intermediate_size=2048) che elabora ogni token incondizionatamente. SCHELETRO DEL MODELLO: 78 livelli, 202k contesto 78 livelli di trasformatore in totale (più profondi dei 61 di DeepSeek-V3). hidden_size = 6144. 64 teste di attenzione, 64 teste KV (MLA rende il KV effettivo molto più economico di quanto questo numero suggerisca). RMSNorm in tutto (eps=1e-5). Dimensione del vocabolario 154,880. Le embedding delle parole non sono legate alla testa LM per impostazione predefinita (tie_word_embeddings=False). La lunghezza del contesto è di 202,752 token. RoPE utilizza un layout intercalato (rope_interleave=True), importando di nuovo apply_rotary_pos_emb_interleave direttamente da DeepSeek-V3. Il codice supporta la scalabilità YaRN tramite yarn_get_mscale, ma rope_theta e rope_type sono impostati nel config.json del modello piuttosto che hardcoded nel sorgente. MTP: Predizione Multi-Token La Predizione Multi-Token è una tecnica di addestramento (popolarizzata da DeepSeek-V3) in cui il modello impara a prevedere più token futuri simultaneamente attraverso teste di previsione extra, migliorando la qualità della rappresentazione. Queste teste extra vengono utilizzate solo durante l'addestramento e scartate al momento dell'inferenza. GLM-5 sembra utilizzare MTP, poiché il checkpoint del modello contiene pesi per un 79° livello di decodifica (model.layers.78), uno oltre i 78 livelli regolari (indici 0-77). Il codice dei trasformatori salta esplicitamente questi pesi extra quando carica il modello. DeepSeek-V3 e GLM-4.7 mostrano entrambi lo stesso schema — pesi di livello extra nel checkpoint, ignorati al momento del caricamento — coerente con il modo in cui le teste di addestramento MTP vengono tipicamente spedite e scartate. COSA SIGNIFICA QUESTO GLM-5 non ha semplicemente preso in prestito alcune idee da DeepSeek. Ha - sostituito l'intero meccanismo di attenzione (GQA -> MLA) - adottato DSA - adottato il routing MoE sigmoid con e_score_correction_bias - raddoppiato il numero di esperti per eguagliare i 256 di DeepSeek, - abbinato il fattore di scaling del routing (2.5), la dimensione intermedia degli esperti (2048) e il numero di livelli densi iniziali (3) - e adottato MTP. L'unica cosa che GLM-5 ha chiaramente mantenuto dalla propria linea GLM-4.7 — dove differisce da DeepSeek-V3 — è il routing top-k piatto senza selezione raggruppata (n_group=1 vs 8 di DeepSeek). Tuttavia, questo NON è una cosa negativa. Quando un grande laboratorio abbandona la propria linea architettonica e ricostruisce su un progetto di un concorrente — abbinando non solo i modelli di design ma molti dei parametri chiave — significa che lo spazio di design è stato esplorato. MLA + MoE sigmoid + esperti condivisi + nessuna perdita ausiliaria + DSA + MTP sta diventando la ricetta standard per il MoE di frontiera. I ritorni alla novità architettonica stanno diminuendo. La differenziazione (per ora) risiede più nella cura dei dati, nelle ricette di addestramento e nell'infrastruttura di inferenza, e meno nel blocco del trasformatore stesso (ma forse vedremo più cambiamenti architettonici, o addirittura blocchi non trasformatore in futuro).

Principali

Ranking

Preferiti