DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Zhuokai Zhao

Cercetător @Meta Construiesc și studiez LLM-uri și agenți Împărtășesc gânduri despre raționament, RL și inteligență scalabilă Doctorat în informatică @UChicagoCS

AMI Labs tocmai a strâns 1,03 miliarde de dolari. World Labs a strâns 1 miliard de dolari cu câteva săptămâni înainte. Amândoi pariază pe modele mondiale. Dar aproape nimeni nu vrea să spună același lucru prin acest termen. Iată, în opinia mea, cinci categorii de modele mondiale. --- 1. Arhitectura predictivă a Joint Embedding (JEPA) Reprezentanți: AMI Labs (@ylecun), V-JEPA 2 Pariul central aici este că reconstrucția pixelilor singură este un obiectiv ineficient pentru a învăța abstracțiile necesare înțelegerii fizice. LeCun spune asta de ani de zile — prezicerea fiecărui pixel al viitorului este de nerezolvat în orice mediu stocastic. JEPA evită acest lucru prezicând în schimb un spațiu latent învățat. Concret, JEPA antrenează un encoder care mapează patch-urile video la reprezentări, apoi un predictor care prognozează regiunile mascate în acel spațiu de reprezentare — nu în spațiul pixelilor. Aceasta este o alegere de design crucială. Un model generativ care reconstruiește pixelii este forțat să se angajeze la detalii de nivel scăzut (textură exactă, iluminare, poziția frunzei) care sunt inerent imprevizibile. Operând pe încorporații abstracte, JEPA poate surprinde "mingea va cădea de pe masă" fără să fie nevoie să halucineze fiecare cadru în care cade. V-JEPA 2 este cel mai clar punct de probă la scară largă de până acum. Este un model cu 1,2B parametri, pre-antrenat pe 1M+ ore de video prin predicție mascată auto-supravegheată — fără etichete, fără text. A doua etapă de antrenament devine interesantă: doar 62 de ore de date despre roboți din setul de date DROID sunt suficiente pentru a produce un model de lume condiționat de acțiune care susține planificarea zero-shot. Robotul generează secvențe de acțiuni candidate, le rulează înainte prin modelul lumii și alege pe cea al cărei rezultat prezis corespunde cel mai bine unei imagini țintă. Acest lucru funcționează pe obiecte și medii care nu au fost niciodată văzute în timpul antrenamentului. Eficiența datelor este adevăratul titlu tehnic. 62 de ore înseamnă aproape nimic. Aceasta sugerează că pre-instruirea auto-supravegheată pe diverse videoclipuri poate genera suficiente cunoștințe fizice anterioare încât foarte puține date specifice domeniului să fie necesare ulterior. Acesta este un argument puternic pentru designul JEPA — dacă reprezentările tale sunt suficient de bune, nu trebuie să forțezi fiecare sarcină de la zero. AMI Labs reprezintă efortul LeCun de a împinge acest lucru dincolo de cercetare. Ei vizează mai întâi sănătatea și robotica, ceea ce are sens având în vedere forța JEPA în raționamentul fizic cu date limitate. Dar acesta este un pariu pe termen lung — CEO-ul lor a spus deschis că produsele comerciale ar putea fi la ani distanță. --- 2. Inteligență spațială (modele 3D ale lumii) Reprezentant: World Labs (@drfeifei) În timp ce JEPA întreabă "ce se va întâmpla în continuare", abordarea lui Fei-Fei Li întreabă "cum arată lumea în 3D și cum o pot construi?" Teza este că înțelegerea adevărată necesită o structură spațială explicită — geometrie, adâncime, perseverență și capacitatea de a reobserva o scenă din perspective noi — nu doar predicție temporală. Aceasta este o variantă diferită față de JEPA: în loc să înveți dinamica abstractă, înveți o reprezentare 3D structurată a mediului pe care o poți manipula direct. Produsul lor, Marmura, generează medii 3D persistente din imagini, text, video sau layout-uri 3D. "Persistent" este cuvântul-cheie — spre deosebire de un model de generare video care produce o secvență liniară de cadre, ieșirile lui Marble sunt scene 3D reale cu coerență spațială. Poți orbita camera, edita obiecte, exporta mesh-uri. Acest lucru îl plasează mai aproape de un instrument de creare 3D decât de un model predictiv, care este deliberat. Pentru context, aceasta se bazează pe o linie de muncă de reprezentare 3D neurală (NeRF-uri, Splatting Gaussian 3D), dar îndreaptă spre generare mai degrabă decât spre reconstrucție. În loc să surprindă o scenă reală din fotografii cu mai multe vizualizări, Marble sintetizează scene noi plauzibile din intrări rare. Provocarea este menținerea plauzibilității fizice — geometrie consistentă, iluminare rezonabilă, ocluzie rațională — într-o lume generată care nu a existat niciodată. --- 3. Simulare învățată (Video generativ + RL în spațiu latent) Reprezentanți: Google DeepMind (Genie 3, Dreamer V3/V4), Runway GWM-1 Această categorie grupează două linii care converg rapid: modele video generative care învață să simuleze lumi interactive și agenți RL care învață modele de lumi pentru a antrena politici în imaginație. Linia de generare video. Genie 3 de la DeepMind este cea mai pură versiune — prompt text în interior, mediu navigabil în ieșire, 24 fps la 720p, cu consistență pentru câteva minute. În loc să se bazeze pe un simulator explicit construit manual, acesta învață dinamica interactivă din date. Proprietatea arhitecturală cheie este generarea autoregresivă, condiționată de acțiunile utilizatorului: fiecare cadru este generat pe baza tuturor cadrelor anterioare plus intrarea curentă (mișcare la stânga, privire în sus etc.). Aceasta înseamnă că modelul trebuie să mențină o memorie spațială implicită — întoarce-te de la un copac și întoarce-te, iar acesta trebuie să fie încă acolo. DeepMind raportează consistență până la aproximativ un minut, ceea ce este impresionant, dar totuși departe de ceea ce ai avea nevoie pentru un antrenament susținut al agenților. GWM-1 de la Runway are o bază similară — predicția autoregresivă a cadrelor construită pe Gen-4.5 — dar se împarte în trei produse: Lumi, Robotică și Avataruri. Împărțirea în Lumi / Avataruri / Robotică sugerează că problema generalității practice este încă descompusă de spațiul acțiunii și cazul de utilizare. Linia reală. Seria Dreamer are o istorie intelectuală mai lungă. Ideea de bază este clară: să înveți un model de dinamică latentă din observații, apoi să implementezi traiectorii imaginare în spațiul latent și să optimizezi o politică prin propagare inversă prin predicțiile modelului. Agentul nu trebuie niciodată să interacționeze cu mediul real în timpul învățării politicilor. Dreamer V3 a fost prima inteligență artificială care a obținut diamante în Minecraft fără date umane. Dreamer 4 a făcut același lucru complet offline — fără nicio interacțiune cu mediul. Din punct de vedere arhitectural, Dreamer 4 trece de la linia recurentă anterioară a lui Dreamer la o rețetă mai scalabilă bazată pe modele de lume bazate pe transformatoare și a introdus "forțarea scurtă" — un obiectiv de antrenament care permite modelului să sară de la predicții zgomotoase la predicții curate în doar 4 pași, în loc de cei 64 tipici în modelele de difuzie. Aceasta este ceea ce face posibilă inferența în timp real pe un singur H100. Aceste două sublinii păreau distincte: generarea video produce medii vizuale, în timp ce modelele lumii RL produc politici antrenate. Dar Dreamer 4 a estompat linia — oamenii pot acum să joace interactiv în interiorul modelului său de lume, iar Genie 3 este folosit pentru a antrena agenții SIMA ai DeepMind. Punctul de convergență este că ambele au nevoie de același lucru: un model care poate simula cu acuratețe modul în care acțiunile afectează mediile pe orizonturi extinse. Întrebarea deschisă pentru întreaga categorie este una pe care LeCun o ridică mereu: învățarea generării pixelilor care arată fizic corect înseamnă că modelul înțelege fizica? Sau este vorba de aspectul care se potrivește cu tipare? Abilitatea lui Dreamer 4 de a obține diamante în Minecraft din imaginație pură este un contrapunct empiric puternic, dar este și un joc cu mecanici discrete, ușor de învățat — lumea reală este mai dezordonată. --- 4. Infrastructură fizică AI (Platformă de simulare) Reprezentant: NVIDIA Cosmos Strategia NVIDIA este să nu construiești modelul lumii, ci să construiești platforma pe care toți ceilalți o folosesc pentru a-și construi modelul. Cosmos a fost lansat la CES în ianuarie 2025 și acoperă întregul stack — pipeline de curare a datelor (procesarea a 20 de milioane de ore video în 14 zile pe Blackwell, față de 3+ ani pe CPU), un tokenizator vizual cu compresie de 8 ori mai bună decât SOTA anterioară, antrenament de modele prin NeMo și implementare prin microservicii NIM. Modelele world foundation pre-antrenate sunt antrenate pe 9.000 de trilioane de tokenuri din 20 de milioane de ore video reale, acoperind date despre condus, industrie, robotică și activități umane. Ele vin în două familii de arhitecturi: bazate pe difuzie (care funcționează pe tokenuri latente continue) și pe transformer autoregresiv (predicție next-token pe token-uri discretizate). Ambele pot fi ajustate fin pentru domenii specifice. Trei familii de modele se află deasupra acestui lucru. Predict generează stări video viitoare din text, imagini sau intrări video — practic prognoză video care poate fi antrenată ulterior pentru scenarii specifice de roboți sau condus. Transfer gestionează adaptarea sim-to-real domeniu, care este una dintre bătăile de cap persistente în AI fizic — modelul tău funcționează excelent în simulare, dar se întrerupe în lumea reală din cauza lacunelor vizuale și dinamice. Rațiunea (adăugată la GTC 2025) aduce raționamentul pe lanțuri de gândire peste scene fizice — conștientizare spațiotemporală, înțelegere cauzală a interacțiunilor, întrebări video și răspunsuri. --- 5. Inferență activă Reprezentant: AI VERSES (Karl Friston) Aceasta este excepția de pe listă — nu din tradiția învățării profunde, ci din neuroștiința computațională. Principiul Energiei Libere al lui Karl Friston spune că sistemele inteligente generează continuu predicții despre mediul lor și acționează pentru a minimiza surpriza (tehnic: energie liberă variațională, o limită superioară a surprizei). În timp ce RL-ul standard este de obicei încadrat în jurul maximizării recompensei, inferența activă prezintă comportamentul ca minimizând energia liberă variațională / așteptată, care îmbină preferințele orientate spre scop cu valoarea epistemică. Aceasta conduce la un comportament natural de explorare: agentul este atras de situații în care este incert, deoarece rezolvarea incertitudinii reduce energia liberă. VERSES a construit AXIOM (Active eXpanding Inference with Object-centric Models) pe această fundație. Arhitectura este fundamental diferită de modelele lumii rețelelor neuronale. În loc să învețe un aproximator de funcție monolitic, AXIOM menține un model generativ structurat în care fiecare entitate din mediu este un obiect discret cu atribute și relații tipizate. Inferența este bayesiană — credințele sunt distribuții de probabilitate care sunt actualizate prin transmiterea mesajelor, nu prin coborâre a gradientului. Acest lucru îl face interpretabil (poți inspecta ce crede agentul despre fiecare obiect), compozițional (adaugă un tip nou de obiect fără reantrenament) și extrem de eficient din punct de vedere al datelor. În lucrările lor despre robotică, au demonstrat o configurație ierarhică multi-agent, unde fiecare articulație a brațului robotic este propriul său agent de inferență activ. Agenții de nivel comun se ocupă de controlul motor local, în timp ce agenții de nivel superior se ocupă de planificarea sarcinilor, toți coordonându-se prin credințe comune într-o ierarhie. Întregul sistem se adaptează în timp real la medii necunoscute fără retraining — muți obiectul țintă și agentul replanifică imediat, pentru că face inferență online, nu o politică fixă. Au lansat un produs comercial (Genius) în aprilie 2025, iar benchmark-urile AXIOM față de liniile de bază RL sunt competitive pe sarcinile standard de control, folosind ordine de mărime mai puține date. --- Din punctul meu de vedere, aceste cinci categorii nu concurează cu adevărat — ele rezolvă sub-probleme diferite. JEPA comprimă înțelegerea fizică. Inteligența spațială reconstruiește structura 3D. Simularea învățată antrenează agenții prin experiența generată. NVIDIA furnizează târnăcopele și lopețile. Inferența activă oferă o teorie computațională fundamental diferită a inteligenței. Bănuiala mea este că granițele dintre ele se estompează rapid.

Explorarea de frontieră a arhitecturilor LLM s-a reunit în mare măsură. Am răsfoit codul HuggingFace transformers pentru noul GLM-5 lansat de @Zai_org (zai-org/GLM-5). Iată o analiză arhitecturală detaliată și ce ne spune despre direcția în care se îndreaptă designul LLM-urilor. Pe scurt; DR: Din punct de vedere arhitectural, GLM-5 urmează îndeaproape DeepSeek-V3 cu reglaje minore la butoane. ATENȚIE: MLA înlocuiește GQA Cea mai mare schimbare de la GLM-4.7 la GLM-5 este atenția. GLM-4.7 folosea Atenția Grupată a Interogărilor (GQA) standard cu 96 de capete Q, 8 capete KV, proiecții separate q/k/v. GLM-5 renunță la toate acestea și adoptă Multi-head Latent Attention (MLA) de la DeepSeek. În pipeline-ul MLA, interogările trec printr-o proiecție în două etape în stil LoRA: ascuns -> q_a_proj la rangul 2048 -> RMSNorm -> q_b_proj la 64 capete * 256 dim. Cheile și valorile sunt comprimate împreună într-un singur blocaj de rang scăzut: ascuns -> kv_a_proj la rangul 512+64 -> împărțit într-o cale KV latentă și o cale RoPE. Partea latentă este extinsă înapoi prin kv_b_proj în 64 de capete de (192 nope + 256 valoare) dims. Acesta este exact același design MLA ca DeepSeek-V3. GLM-5 doar reglează dimensiunile: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128. kv_lora_rank (512) și qk_rope_head_dim (64) sunt identice. De asemenea, nu există nicio părtinire în atenție (attention_bias implicit pe Fals). Fiecare proiecție (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj și toate proiecțiile indexatelor DSA) este lipsită de biais. Aceasta este acum o practică standard; dintre modelele majore lansate în 2025, doar GPT-OSS folosește încă biasul de atenție. DSA: Atenția redusă a DeepSeek GLM-5 adoptă atenția nativă sparse attention (DSA) a DeepSeek V3.2 — aceasta este singura caracteristică arhitecturală @Zai_org evidențiată explicit. Clasa de atenție are componente dedicate indexatorului: wq_b, wk, k_norm și weights_proj, folosite pentru a selecta cele mai relevante tokenuri din top 2048 (index_topk=2048) pentru fiecare pas de atenție, în loc să observe contextul complet. MoE ROUTING: Aceeași rețetă și aceleași numere 256 experți rutați + 1 expert comun. La fel ca DeepSeek-V3 din ambele puncte de vedere; în creștere față de cei 128 de experți în rută ai GLM-4.7. Până acum, doar seria Qwen-3 a eliminat expertul comun — toți ceilalți păstrează unul. Top 8 experți selectați pe fiecare jeton (num_experts_per_tok=8). Rutare bazată pe sigmoid (nu softmax) cu e_score_correction_bias pentru echilibrarea încărcării — fără nicio pierdere auxiliară, exact ca în DeepSeek-V3. Ponderile top-k sunt normalizate (norm_topk_prob=Adevărat), apoi scalate cu routed_scaling_factor = 2,5 — identice cu DeepSeek-V3 (GLM-4.7 folosit 1.0). moe_intermediate_size = 2048, de asemenea identic cu DeepSeek-V3. O simplificare față de DeepSeek-V3: GLM-5 elimină complet selecția experților grupate (n_group=1, topk_group=1). DeepSeek-V3 împarte 256 de experți în 8 grupuri a câte 32 și selectează primele 4 grupuri înainte de a alege experții din cadrul acestora. GLM-5 sare peste asta și face doar top-8 plat pe toate cele 256. Acest lucru este în concordanță cu abordarea GLM-4.7 — sugerând că rutarea grupată poate nu este esențială. FFN / MLP: SwiGLU, dens atunci-MoE Toate straturile feed-forward (FFN) folosesc SwiGLU (unitate liniară cu activare SiLU), fără nicio polarizare în nicio proiecție. Acest lucru se aplică atât FFN-urilor dense, experților rutați, cât și experților împărtășiți. Cele 78 de straturi urmează un tipar dens apoi-MoE: primele 3 straturi folosesc un FFN standard dens (intermediate_size=12288), iar celelalte 75 de straturi sunt toate MoE — fără intercalare densă/MoE în regiunea MoE. DeepSeek-V3 folosește aceeași împărțire 3-dense-apoi-MoE. GLM-4.7 folosea doar un strat inițial dens. În cadrul fiecărui strat MoE, rezultatul este suma a două părți: (1) amestecul expert rutat (top 8 din 256, fiecare cu intermediate_size=2048), și (2) un expert comun (de asemenea intermediate_size=2048) care procesează fiecare token necondiționat. SCELETON MODEL: 78 de straturi, context 202k 78 de straturi de transformatoare în total (mai adânci decât cele 61 ale DeepSeek-V3). hidden_size = 6144. 64 de capete de atenție, 64 de capete KV (MLA face ca KV-ul efectiv să fie mult mai ieftin decât sugerează acest număr). RMSNorm pe tot parcursul (eps=1e-5). Dimensiunea vocabularului: 154.880. Încorporarea cuvintelor nu este legată implicit de capul LM (tie_word_embeddings=Fals). Lungimea contextului este de 202.752 token-uri. RoPE folosește layout intercalat (rope_interleave=True), importând din nou apply_rotary_pos_emb_interleave direct din DeepSeek-V3. Codul suportă scalarea YaRN prin yarn_get_mscale, dar rope_theta și rope_type sunt setate în config.json modelului, nu codificate fix în sursă. MTP: Predicție Multi-Token Predicția Multi-Token este o tehnică de antrenament (popularizată de DeepSeek-V3) în care modelul învață să prezică simultan mai multe tokenuri viitoare prin capete suplimentare de predicție, îmbunătățind calitatea reprezentării. Aceste capete suplimentare sunt folosite doar în timpul antrenamentului și aruncate la momentul inferenței. GLM-5 pare să folosească MTP, deoarece punctul de control al modelului conține greutăți pentru al 79-lea strat decodor (model.layers.78), unul dincolo de cele 78 de straturi regulate (indicii 0-77). Codul transformatoarelor sare explicit peste aceste greutăți suplimentare la încărcarea modelului. DeepSeek-V3 și GLM-4.7 prezintă ambele același tipar — greutăți suplimentare în straturi în punctul de control, ignorate la încărcare — în concordanță cu modul în care capetele de antrenament MTP sunt de obicei livrate și aruncate. CE ÎNSEAMNĂ ASTA GLM-5 nu a împrumutat doar câteva idei de la DeepSeek. A - a înlocuit întregul mecanism de atenție (GQA -> MLA) - DSA adoptată - a adoptat rutarea sigmoid MoE cu e_score_correction_bias - și-a dublat numărul de experți pentru a egala numărul de 256 al DeepSeek, - a potrivit factorul de scalare a rutării (2,5), dimensiunea intermediară expert (2048) și numărul straturilor inițiale dense (3) - și a adoptat MTP. Singurul lucru pe care GLM-5 l-a păstrat clar din propria sa linie de origine GLM-4.7 — acolo unde diferă de DeepSeek-V3 — este rutarea top-k plată fără selecție grupată (n_group=1 față de 8 la DeepSeek). Totuși, acest lucru NU este un lucru rău. Când un laborator major renunță la propria linie arhitecturală și reconstruiește pe planul unui concurent — potrivind nu doar tiparele de design, ci și multe dintre hiperparametrii cheie — înseamnă că spațiul de design a fost explorat. MLA + MoE sigmoid + experți împărtășiți + fără pierdere aux + DSA + MTP devine rețeta standard de frontieră MoE. Randamentele pentru noutatea arhitecturală sunt în scădere. Diferențierea (deocamdată) constă mai mult în curarea datelor, rețete de antrenament și infrastructura de inferență, și mai puțin în blocul transformator în sine (dar poate vom vedea mai multe schimbări arhitecturale sau chiar blocuri non-transformer în viitor).

Limită superioară

Clasament

Favorite