AMI Labs ha appena raccolto 1,03 miliardi di dollari. World Labs ha raccolto 1 miliardo di dollari poche settimane prima. Entrambi scommettono sui modelli del mondo. Ma quasi nessuno intende la stessa cosa con quel termine. Ecco, a mio avviso, cinque categorie di modelli del mondo. --- 1. Architettura Predittiva di Embedding Congiunto (JEPA) Rappresentanti: AMI Labs (@ylecun), V-JEPA 2 La scommessa centrale qui è che la ricostruzione dei pixel da sola è un obiettivo inefficiente per apprendere le astrazioni necessarie per la comprensione fisica. LeCun lo dice da anni: prevedere ogni pixel del futuro è inestricabile in qualsiasi ambiente stocastico. JEPA evita questo prevedendo in uno spazio latente appreso. Concretamente, JEPA addestra un codificatore che mappa i frammenti video a rappresentazioni, poi un predittore che prevede le regioni mascherate in quello spazio di rappresentazione — non nello spazio dei pixel. Questa è una scelta di design cruciale. Un modello generativo che ricostruisce i pixel è costretto a impegnarsi in dettagli a basso livello (testura esatta, illuminazione, posizione delle foglie) che sono intrinsecamente imprevedibili. Operando su embedding astratti, JEPA può catturare "la palla cadrà dal tavolo" senza dover allucinare ogni fotogramma di essa che cade. V-JEPA 2 è il punto di prova su larga scala più chiaro finora. È un modello da 1,2 miliardi di parametri pre-addestrato su oltre 1 milione di ore di video tramite previsione mascherata auto-supervisionata — nessuna etichetta, nessun testo. La seconda fase di addestramento è dove diventa interessante: solo 62 ore di dati robotici dal dataset DROID sono sufficienti per produrre un modello del mondo condizionato all'azione che supporta la pianificazione zero-shot. Il robot genera sequenze di azioni candidate, le fa avanzare attraverso il modello del mondo e sceglie quella il cui risultato previsto corrisponde meglio a un'immagine obiettivo. Questo funziona su oggetti e ambienti mai visti durante l'addestramento. L'efficienza dei dati è il vero titolo tecnico. 62 ore sono quasi nulla. Suggerisce che il pre-addestramento auto-supervisionato su video diversi può avviare abbastanza conoscenza fisica prioritaria che è necessario molto poco dato specifico del dominio a valle. Questo è un forte argomento a favore del design JEPA: se le tue rappresentazioni sono abbastanza buone, non hai bisogno di affrontare ogni compito da zero. AMI Labs è lo sforzo di LeCun per spingere questo oltre la ricerca. Stanno puntando prima alla sanità e alla robotica, il che ha senso dato che la forza di JEPA è nel ragionamento fisico con dati limitati. Ma questa è una scommessa a lungo termine: il loro CEO ha detto apertamente che i prodotti commerciali potrebbero essere a anni di distanza. --- 2. Intelligenza Spaziale (Modelli del Mondo 3D) Rappresentante: World Labs (@drfeifei) ...