DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

scott belsky

aiutare il mondo creativo a realizzare idee. partner @a24 / fondatore A24Labs; fondatore @Behance, BOD @atlassian & MoMA, autrice, investitura seed, ossessionata di prodotti.

buoni post sul confondere i confini di approcci vari ai cosiddetti modelli del mondo…

AMI Labs ha appena raccolto 1,03 miliardi di dollari. World Labs ha raccolto 1 miliardo di dollari poche settimane prima. Entrambi scommettono sui modelli del mondo. Ma quasi nessuno intende la stessa cosa con quel termine. Ecco, a mio avviso, cinque categorie di modelli del mondo. --- 1. Architettura Predittiva di Embedding Congiunto (JEPA) Rappresentanti: AMI Labs (@ylecun), V-JEPA 2 La scommessa centrale qui è che la ricostruzione dei pixel da sola è un obiettivo inefficiente per apprendere le astrazioni necessarie per la comprensione fisica. LeCun lo dice da anni: prevedere ogni pixel del futuro è inestricabile in qualsiasi ambiente stocastico. JEPA evita questo prevedendo in uno spazio latente appreso. Concretamente, JEPA addestra un codificatore che mappa i frammenti video a rappresentazioni, poi un predittore che prevede le regioni mascherate in quello spazio di rappresentazione — non nello spazio dei pixel. Questa è una scelta di design cruciale. Un modello generativo che ricostruisce i pixel è costretto a impegnarsi in dettagli a basso livello (testura esatta, illuminazione, posizione delle foglie) che sono intrinsecamente imprevedibili. Operando su embedding astratti, JEPA può catturare "la palla cadrà dal tavolo" senza dover allucinare ogni fotogramma di essa che cade. V-JEPA 2 è il punto di prova su larga scala più chiaro finora. È un modello da 1,2 miliardi di parametri pre-addestrato su oltre 1 milione di ore di video tramite previsione mascherata auto-supervisionata — nessuna etichetta, nessun testo. La seconda fase di addestramento è dove diventa interessante: solo 62 ore di dati robotici dal dataset DROID sono sufficienti per produrre un modello del mondo condizionato all'azione che supporta la pianificazione zero-shot. Il robot genera sequenze di azioni candidate, le fa avanzare attraverso il modello del mondo e sceglie quella il cui risultato previsto corrisponde meglio a un'immagine obiettivo. Questo funziona su oggetti e ambienti mai visti durante l'addestramento. L'efficienza dei dati è il vero titolo tecnico. 62 ore sono quasi nulla. Suggerisce che il pre-addestramento auto-supervisionato su video diversi può avviare abbastanza conoscenza fisica prioritaria che è necessario molto poco dato specifico del dominio a valle. Questo è un forte argomento a favore del design JEPA: se le tue rappresentazioni sono abbastanza buone, non hai bisogno di affrontare ogni compito da zero. AMI Labs è lo sforzo di LeCun per spingere questo oltre la ricerca. Stanno puntando prima alla sanità e alla robotica, il che ha senso dato che la forza di JEPA è nel ragionamento fisico con dati limitati. Ma questa è una scommessa a lungo termine: il loro CEO ha detto apertamente che i prodotti commerciali potrebbero essere a anni di distanza. --- 2. Intelligenza Spaziale (Modelli del Mondo 3D) Rappresentante: World Labs (@drfeifei) Dove JEPA chiede "cosa succederà dopo", l'approccio di Fei-Fei Li chiede "come appare il mondo in 3D e come posso costruirlo?" La tesi è che una vera comprensione richiede una struttura spaziale esplicita — geometria, profondità, persistenza e la capacità di rivedere una scena da nuovi punti di vista — non solo previsione temporale. Questa è una scommessa diversa da JEPA: piuttosto che apprendere dinamiche astratte, si apprende una rappresentazione 3D strutturata dell'ambiente che si può manipolare direttamente. Il loro prodotto Marble genera ambienti 3D persistenti da immagini, testo, video o layout 3D. "Persistente" è la parola chiave: a differenza di un modello di generazione video che produce una sequenza lineare di fotogrammi, le uscite di Marble sono scene 3D reali con coerenza spaziale. Puoi orbitare la telecamera, modificare oggetti, esportare mesh. Questo lo avvicina a uno strumento di creazione 3D piuttosto che a un modello predittivo, il che è deliberato. Per contesto, questo si basa su una linea di lavoro di rappresentazione 3D neurale (NeRFs, 3D Gaussian Splatting) ma spinge verso la generazione piuttosto che la ricostruzione. Invece di catturare una scena reale da foto multi-vista, Marble sintetizza nuove scene plausibili da input sparsi. La sfida è mantenere la plausibilità fisica — geometria coerente, illuminazione ragionevole, occlusione sensata — attraverso un mondo generato che non è mai esistito. --- 3. Simulazione Appresa (Video Generativo + RL nello Spazio Latente) Rappresentanti: Google DeepMind (Genie 3, Dreamer V3/V4), Runway GWM-1 Questa categoria raggruppa due linee che si stanno rapidamente convergendo: modelli video generativi che apprendono a simulare mondi interattivi e agenti RL che apprendono modelli del mondo per addestrare politiche nell'immaginazione. La linea di generazione video. Genie 3 di DeepMind è la versione più pura — prompt di testo in, ambiente navigabile fuori, 24 fps a 720p, con coerenza per alcuni minuti. Piuttosto che fare affidamento su un simulatore esplicito costruito a mano, apprende dinamiche interattive dai dati. La chiave architettonica è la generazione autoregressiva condizionata sulle azioni dell'utente: ogni fotogramma è generato in base a tutti i fotogrammi precedenti più l'input attuale (muovi a sinistra, guarda in alto, ecc.). Questo significa che il modello deve mantenere una memoria spaziale implicita: allontanati da un albero e torna indietro, e deve ancora esserci. DeepMind riporta coerenza fino a circa un minuto, il che è impressionante ma ancora lontano da ciò di cui avresti bisogno per un addestramento sostenuto dell'agente. GWM-1 di Runway prende una base simile — previsione di fotogrammi autoregressiva costruita su Gen-4.5 — ma si divide in tre prodotti: Mondi, Robotica e Avatar. La divisione in Mondi / Avatar / Robotica suggerisce che il problema della generalità pratica è ancora in fase di decomposizione per spazio d'azione e caso d'uso. La linea RL. La serie Dreamer ha una storia intellettuale più lunga. L'idea centrale è chiara: apprendere un modello di dinamiche latenti dalle osservazioni, poi sviluppare traiettorie immaginate nello spazio latente e ottimizzare una politica tramite retropropagazione attraverso le previsioni del modello. L'agente non ha mai bisogno di interagire con l'ambiente reale durante l'apprendimento della politica. Dreamer V3 è stato il primo AI a ottenere diamanti in Minecraft senza dati umani. Dreamer 4 ha fatto lo stesso puramente offline — nessuna interazione con l'ambiente. Architettonicamente, Dreamer 4 passa dalla precedente linea ricorrente di Dreamer a una ricetta di modello del mondo basata su transformer più scalabile e introduce "shortcut forcing" — un obiettivo di addestramento che consente al modello di passare da previsioni rumorose a pulite in sole 4 fasi invece delle 64 tipiche nei modelli di diffusione. Questo è ciò che rende possibile l'inferenza in tempo reale su un singolo H100. Queste due sotto-linee sembravano distinte: la generazione video produce ambienti visivi, mentre i modelli del mondo RL producono politiche addestrate. Ma Dreamer 4 ha sfumato la linea — gli esseri umani possono ora giocare all'interno del suo modello del mondo in modo interattivo, e Genie 3 viene utilizzato per addestrare gli agenti SIMA di DeepMind. Il punto di convergenza è che entrambi hanno bisogno della stessa cosa: un modello che possa simulare accuratamente come le azioni influenzano gli ambienti su orizzonti estesi. La domanda aperta per questa intera categoria è una che LeCun continua a sollevare: imparare a generare pixel che sembrano fisicamente corretti significa davvero che il modello comprende la fisica? O è solo un abbinamento di pattern? La capacità di Dreamer 4 di ottenere diamanti in Minecraft dalla pura immaginazione è un forte controargomento empirico, ma è anche un gioco con meccaniche discrete e apprendibili — il mondo reale è più disordinato. --- 4. Infrastruttura AI Fisica (Piattaforma di Simulazione) Rappresentante: NVIDIA Cosmos Il gioco di NVIDIA è non costruire il modello del mondo, ma costruire la piattaforma che tutti gli altri usano per costruire i propri. Cosmos è stato lanciato al CES di gennaio 2025 e copre l'intero stack — pipeline di curazione dei dati (elaborare 20 milioni di ore di video in 14 giorni su Blackwell, rispetto a oltre 3 anni su CPU), un tokenizer visivo con 8 volte migliore compressione rispetto al precedente SOTA, addestramento del modello tramite NeMo e distribuzione tramite microservizi NIM. I modelli fondazione del mondo pre-addestrati sono stati addestrati su 9.000 trilioni di token da 20 milioni di ore di video del mondo reale che spaziano dalla guida, all'industriale, alla robotica e ai dati sulle attività umane. Vengono in due famiglie architettoniche: basate su diffusione (operanti su token latenti continui) e basate su transformer autoregressivi (previsione del token successivo su token discretizzati). Entrambi possono essere affinati per domini specifici. Tre famiglie di modelli si trovano sopra a questo. Predict genera stati video futuri da input di testo, immagine o video — essenzialmente previsione video che può essere post-addestrata per scenari specifici di robot o guida. Transfer gestisce l'adattamento dominio sim-to-real, che è uno dei mal di testa persistenti nell'AI fisica — il tuo modello funziona benissimo in simulazione ma si rompe nel mondo reale a causa di lacune visive e dinamiche. Reason (aggiunto a GTC 2025) porta il ragionamento a catena di pensiero su scene fisiche — consapevolezza spaziotemporale, comprensione causale delle interazioni, video Q&A. --- 5. Inferenza Attiva Rappresentante: VERSES AI (Karl Friston) Questo è l'eccezione nella lista — non proviene affatto dalla tradizione del deep learning, ma dalla neuroscienza computazionale. Il Principio dell'Energia Libera di Karl Friston afferma che i sistemi intelligenti generano continuamente previsioni sul loro ambiente e agiscono per minimizzare la sorpresa (tecnicamente: energia libera variabile, un limite superiore sulla sorpresa). Dove il RL standard è solitamente inquadrato attorno alla massimizzazione della ricompensa, l'inferenza attiva inquadra il comportamento come minimizzazione dell'energia libera variabile / attesa, che mescola preferenze orientate agli obiettivi con valore epistemico. Questo porta a un comportamento di esplorazione naturale: l'agente è attratto da situazioni in cui è incerto, perché risolvere l'incertezza riduce l'energia libera. VERSES ha costruito AXIOM (Inferenza Attiva eXpanding con Modelli Centrici sugli Oggetti) su questa base. L'architettura è fondamentalmente diversa dai modelli del mondo delle reti neurali. Invece di apprendere un approssimatore di funzione monolitico, AXIOM mantiene un modello generativo strutturato in cui ogni entità nell'ambiente è un oggetto discreto con attributi e relazioni tipizzati. L'inferenza è bayesiana: le credenze sono distribuzioni di probabilità che vengono aggiornate tramite passaggio di messaggi, non discesa del gradiente. Questo la rende interpretabile (puoi ispezionare ciò che l'agente crede su ogni oggetto), compositiva (aggiungi un nuovo tipo di oggetto senza riaddestrare) e estremamente efficiente in termini di dati. Nel loro lavoro di robotica, hanno mostrato un setup multi-agente gerarchico in cui ogni giunto di un braccio robotico è il proprio agente di inferenza attiva. Gli agenti a livello di giunto gestiscono il controllo motorio locale mentre gli agenti a livello superiore gestiscono la pianificazione dei compiti, tutti coordinandosi attraverso credenze condivise in una gerarchia. L'intero sistema si adatta in tempo reale a ambienti sconosciuti senza riaddestramento — sposti l'oggetto target e l'agente riprogramma immediatamente, perché sta facendo inferenza online, non eseguendo una politica fissa. Hanno lanciato un prodotto commerciale (Genius) nell'aprile 2025, e i benchmark di AXIOM contro le basi RL sono competitivi in compiti di controllo standard utilizzando ordini di grandezza meno dati. --- In sintesi, queste cinque categorie non sono davvero in competizione — stanno risolvendo diversi sotto-problemi. JEPA comprime la comprensione fisica. L'intelligenza spaziale ricostruisce la struttura 3D. La simulazione appresa addestra gli agenti attraverso esperienze generate. NVIDIA fornisce gli attrezzi. L'inferenza attiva offre una teoria computazionale dell'intelligenza fondamentalmente diversa. La mia ipotesi è che le linee tra di loro si sfumino rapidamente.

Principali

Ranking

Preferiti