DApp Store | Centrum Web3 pro události a hry

Populární témata

Zhuokai Zhao

Výzkumný @Meta Vytvářím a studuji LLM a agenty Sdílení myšlenek o uvažování, reálném životě a škálovatelné inteligenci PhD v informatice @UChicagoCS

AMI Labs právě vybrala 1,03 miliardy dolarů. World Labs vybrala o několik týdnů dříve 1 miliardu dolarů. Oba sázejí na světové modely. Ale téměř nikdo tím nemyslí totéž. Zde je podle mého názoru pět kategorií světových modelů. --- 1. Prediktivní architektura společného vnoření (JEPA) Zástupci: AMI Labs (@ylecun), V-JEPA 2 Hlavní sázkou je, že samotná rekonstrukce pixelů je neefektivním cílem pro učení abstrakcí potřebných pro fyzikální porozumění. LeCun to říká už roky — předpovídat každý pixel budoucnosti je neřešitelné v jakémkoli stochastickém prostředí. JEPA se tomu vyhýbá tím, že předpovídá v naučeném latentním prostoru. Konkrétně JEPA trénuje enkodér, který mapuje video patche na reprezentace, a poté prediktor, který předpovídá maskované oblasti v daném prostoru reprezentací — nikoli v pixelovém prostoru. To je zásadní designová volba. Generativní model, který rekonstruuje pixely, je nucen se zavázat k nízkoúrovňovým detailům (přesná textura, osvětlení, pozice listů), které jsou ze své podstaty nepředvídatelné. Díky práci s abstraktními embeddingy může JEPA zachytit "míček spadne ze stolu", aniž by musel halucinovat každý snímek jeho pádu. V-JEPA 2 je zatím nejjasnějším velkým důkazním bodem. Je to model s 1,2B parametry, předtrénovaný na 1 milionu hodin videa pomocí samokontrolované maskované predikce — bez štítků, bez textu. Druhá fáze tréninku je moment, kdy to začíná být zajímavé: pouhých 62 hodin robotických dat z DROID datasetu stačí k vytvoření světového modelu podmíněného akcí, který podporuje plánování bez výstřelů. Robot generuje kandidátní akční sekvence, přetáčí je dál modelem světa a vybere tu, jejíž předpovězený výsledek nejlépe odpovídá cílovému obrazu. To funguje na objekty a prostředí, která během výcviku nikdy nebyla vidět. Skutečným technickým tématem je efektivita dat. 62 hodin je skoro nic. Naznačuje, že samo-řízené předtrénování různorodých videí může nastartovat dostatek fyzických předchozích znalostí, takže je potřeba jen velmi málo dat specifických pro danou oblast. To je silný argument pro design JEPA — pokud jsou vaše reprezentace dostatečně dobré, nemusíte každý úkol dělat hrubou silou od začátku. AMI Labs je LeCunovo úsilí posunout to za hranice výzkumu. Zaměřují se především na zdravotnictví a robotiku, což dává smysl vzhledem k síle JEPA v oblasti fyzického uvažování s omezenými daty. Ale to je sázka na dlouhý horizont — jejich generální ředitel otevřeně řekl, že komerční produkty mohou být vzdálené až za několik let. --- 2. Prostorová inteligence (3D modely světa) Zástupce: World Labs (@drfeifei) Zatímco JEPA se ptá "co se stane dál," Fei-Fei Li se ptá "jak vypadá svět ve 3D a jak ho mohu postavit?" Teze je, že skutečné porozumění vyžaduje explicitní prostorovou strukturu — geometrii, hloubku, trvalost a schopnost znovu pozorovat scénu z nových úhlů pohledu — nikoli jen časovou předpověď. To je jiná volba než JEPA: místo učení abstraktní dynamiky se naučíte strukturovanou 3D reprezentaci prostředí, kterou můžete přímo ovládat. Jejich produkt Marble generuje trvalá 3D prostředí z obrázků, textu, videa nebo 3D rozvržení. "Persistentní" je klíčové slovo — na rozdíl od modelu generování videa, který vytváří lineární sekvenci snímků, výstupy Marble jsou skutečné 3D scény s prostorovou soudržností. Můžete obíhat kameru, upravovat objekty, exportovat meshe. To ho řadí blíže k nástroji pro tvorbu 3D než k prediktivnímu modelu, který je záměrný. Pro kontext, toto navazuje na linii práce s neuronovými 3D reprezentacemi (NeRF, 3D Gaussovské splatting), ale směřuje spíše k generování než k rekonstrukci. Místo zachycení skutečné scény z vícenásobných fotografií Marble syntetizuje věrohodné nové scény z řídkých vstupů. Výzvou je udržet fyzickou věrohodnost — konzistentní geometrii, rozumné osvětlení, rozumnou okluzi — napříč generovaným světem, který nikdy neexistoval. --- 3. Naučená simulace (generativní video + RL v latentním prostoru) Zástupci: Google DeepMind (Genie 3, Dreamer V3/V4), Runway GWM-1 Tato kategorie sdružuje dvě linie, které se rychle sbíhají: generativní video modely, které se učí simulovat interaktivní světy, a RL agenty, kteří se učí světové modely, aby trénovali politiky v představivosti. Generování videa. DeepMind's Genie 3 je nejčistší verze — textový prompt vstup, procházitelné prostředí ven, 24 fps při 720p, s konzistencí po dobu několika minut. Místo spoléhání se na explicitně ručně vytvořený simulátor se učí interaktivní dynamiku z dat. Klíčovou architektonickou vlastností je autoregresivní generování podmíněné uživatelskými akcemi: každý snímek je generován na základě všech předchozích snímků plus aktuálního vstupu (pohyb doleva, hledání nahoru atd.). To znamená, že model musí udržovat implicitní prostorovou paměť — otoč se od stromu a pak zpět, a musí tam stále být. DeepMind hlásí konzistenci až do minuty, což je působivé, ale stále daleko od toho, co byste potřebovali pro dlouhodobý výcvik agentů. GWM-1 od Runway vychází z podobného základu — autoregresivní predikce rámce založené na Gen-4.5 — ale rozděluje se do tří produktů: Worlds, Robotics a Avatars. Rozdělení na světy / avatary / robotiku naznačuje, že praktický problém obecnosti se stále rozkládá podle akčního prostoru a případu použití. Z reálné linie. Série Dreamer má delší intelektuální historii. Základní myšlenka je čistá: naučit se latentní dynamický model z pozorování, poté rozvíjet představované trajektorie v latentním prostoru a optimalizovat politiku zpětným šířením podle predikcí modelu. Agent během učení politiky nikdy nemusí interagovat s reálným prostředím. Dreamer V3 byla první AI, která získala diamanty v Minecraftu bez lidských dat. Dreamer 4 udělal totéž čistě offline — žádná interakce s prostředím. Architektonicky Dreamer 4 přechází od dřívější rekurentní linie Dreameru k škálovatelnějšímu modelu světa založenému na transformerech a zavedl "shortcut forcing" — tréninkový cíl, který umožňuje modelu přeskočit z šumu na čisté predikce během pouhých 4 kroků místo obvyklých 64 kroků u difuzních modelů. To je to, co umožňuje inferenci v reálném čase na jednom H100. Tyto dvě podlinie dříve působily odlišně: generování videa vytváří vizuální prostředí, zatímco modely reálného světa vytvářejí trénované politiky. Ale Dreamer 4 rozmazal hranici — lidé nyní mohou interaktivně hrát v jeho modelu světa a Genie 3 se používá k výcviku agentů SIMA od DeepMind. Bodem konvergence je, že oba potřebují totéž: model, který dokáže přesně simulovat, jak akce ovlivňují prostředí v dlouhodobých horizontech. Otevřenou otázkou pro celou tuto kategorii je ta, kterou LeCun neustále klade: znamená skutečně to, že se naučit generovat pixely, které vypadají fyzicky správně, že model rozumí fyzice? Nebo je to vzhled podle vzoru? Schopnost Dreamer 4 získávat diamanty v Minecraftu čistě díky představivosti je silným empirickým protikladem, ale zároveň je to hra s diskrétními, naučitelnými mechanikami — skutečný svět je mnohem chaotičtější. --- 4. Fyzická AI infrastruktura (simulační platforma) Zástupce: NVIDIA Cosmos Strategie NVIDIA není stavět světový model, ale stavět platformu, kterou ostatní používají k tvorbě svých. Cosmos byl představen na CES v lednu 2025 a pokrývá celý stack — datový kurátorský pipeline (zpracování 20 milionů hodin videa za 14 dní na Blackwellu oproti 3+ letům na CPU), vizuální tokenizér s 8x lepší kompresí než předchozí SOTA, trénování modelů přes NeMo a nasazení přes mikroslužby NIM. Předtrénované světové základní modely jsou trénovány na 9 000 bilionech tokenů z 20 milionů hodin reálného videa pokrývajícího data o jízdě, průmyslu, robotice a lidské činnosti. Existují ve dvou architektonických rodinách: založené na difúzi (pracující na kontinuálních latentních tokenech) a založené na autoregresních transformerech (predikce dalšího tokenu na diskretizovaných tokenech). Oba lze doladit pro konkrétní domény. Na tomto jsou tři modelové rodiny. Predict generuje budoucí video stavy z textu, obrázku nebo video vstupů — v podstatě video předpovídání, které lze následně trénovat pro konkrétní robotické nebo jízdní scénáře. Transfer řeší adaptaci simulace na reálnou doménu, což je jedna z trvalých problémů fyzické AI — váš model funguje skvěle v simulaci, ale v reálném světě se rozpadá kvůli vizuálním a dynamickým mezerám. Reason (přidán na GTC 2025) přináší myšlenkové uvažování přes fyzické scény — prostorově-časové uvědomění, kauzální porozumění interakcím, video otázky a odpovědi. --- 5. Aktivní inference Zástupce: VERSES AI (Karl Friston) To je výjimka na seznamu — vůbec ne z tradice hlubokého učení, ale z výpočetní neurovědy. Princip volné energie Karla Fristona říká, že inteligentní systémy neustále generují předpovědi o svém prostředí a jednají tak, aby minimalizovaly překvapení (technicky: variační volná energie, horní hranice překvapení). Zatímco standardní RL je obvykle rámována kolem maximalizace odměny, aktivní inference rámuje chování jako minimalizaci variace/očekávané volné energie, což spojuje cíle zaměřené preference s epistemickou hodnotou. To vede k přirozenému chování při zkoumání: agent je přitahován do situací, kde je nejistý, protože vyřešení nejistoty snižuje volnou energii. VERSES na tomto základě postavil AXIOM (Active eXpanding Inference with Object-centric Models). Architektura se zásadně liší od modelů světa neuronových sítí. Místo učení se aproximatoru monolitických funkcí udržuje AXIOM strukturovaný generativní model, kde každá entita v prostředí je diskrétní objekt s typovanými atributy a relacemi. Inference je bayesovská — přesvědčení jsou pravděpodobnostní rozdělení, která se aktualizují prostřednictvím předávání zpráv, nikoli gradientním sestupem. To jej činí interpretovatelnou (můžete si prohlédnout, co agent o každém objektu věří), kompozicionální (přidat nový typ objektu bez přeškolení) a extrémně efektivně datově efektivní. Ve své robotické práci ukázali hierarchické multiagentní uspořádání, kde každý kloub robotické paže je svým vlastním aktivním inferenčním agentem. Společní agenti zajišťují lokální motorické řízení, zatímco vyšší agenti plánují úkoly, všichni koordinovaní prostřednictvím sdílených vír v hierarchii. Celý systém se v reálném čase přizpůsobuje neznámému prostředí bez nutnosti přeškolování — přesunete cílový objekt a agent okamžitě přeplánuje, protože provádí online inferenci, ne provádí pevnou politiku. V dubnu 2025 uvedli komerční produkt (Genius) na trh a benchmarky AXIOM vůči RL základním testům jsou konkurenceschopné u standardních řídicích úloh, přičemž používají o řády méně dat. --- Podle mého názoru těchto pět kategorií vlastně nesoupeří — řeší různé podproblémy. JEPA komprimuje fyzické porozumění. Prostorová inteligence rekonstruuje 3D strukturu. Naučená simulace trénuje agenty prostřednictvím získaných zkušeností. NVIDIA poskytuje krumpáče a lopaty. Aktivní inference nabízí zásadně odlišnou výpočetní teorii inteligence. Můj odhad je, že hranice mezi nimi se rychle stírají.

Průzkum LLM architektur se do značné míry sblížil. Prohrabal jsem se kódem HuggingFace transformátorů pro nově vydaný @Zai_org GLM-5 (zai-org/GLM-5). Zde je podrobný architektonický rozbor a co nám říká o tom, kam směřuje návrh LLM. Stručně; DR: Architektonicky GLM-5 velmi následuje DeepSeek-V3 s drobným laděním knoflíků. POZOR: MLA nahrazuje GQA Největší změnou mezi modelem GLM-4.7 a GLM-5 je pozornost. GLM-4.7 používal standardní Grouped Query Attention (GQA) s 96 Q hlavami, 8 KV hlavami a samostatnými q/k/v projekcemi. GLM-5 to všechno ruší a přejímá DeepSeek Multi-head Latent Attention (MLA). V MLA pipeline probíhají dotazy přes dvoufázovou projekci ve stylu LoRA: skryté -> q_a_proj na pořadí 2048 -> RMSNorm -> q_b_proj do 64 hlav * 256 dim. Klíče a hodnoty jsou společně komprimovány do jednoho nízkohodnotného úzkého hrdla: skryté -> kv_a_proj na pořadí 512+64 -> rozdělené na latentní KV cestu a RoPE cestu. Latentní část se rozšiřuje zpět kv_b_proj na 64 hlav (192 ne + 256 hodnot) dimů. Je to přesně stejný design MLA jako DeepSeek-V3. GLM-5 jen ladí rozměry: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128. kv_lora_rank (512) a qk_rope_head_dim (64) jsou totožné. Také žádná zaujatost v pozornosti (attention_bias výchozí nastavení je Nepravdivé). Každá projekce (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj a všechny projekce indexeru DSA) je bez zkreslení. To je nyní standardní praxe; Mezi hlavními modely vydanými v roce 2025 používá pozornost zkreslení pouze GPT-OSS. DSA: Sporadická pozornost DeepSeek GLM-5 přebírá nativní sparse attention (DSA) z DeepSeek V3.2 — to je jediná architektonická prvnost, @Zai_org explicitně zdůrazněna. Třída pozornosti obsahuje vyhrazené indexovací komponenty: wq_b, wk, k_norm a weights_proj, které slouží k výběru 2048 nejrelevantnějších tokenů (index_topk=2048) pro každý krok pozornosti místo toho, aby se věnovala celému kontextu. Směrování MoE: stejný recept a stejná čísla 256 vyřazených expertů + 1 sdílený expert. Stejné jako DeepSeek-V3 v obou ohledech; z 128 expertů z GLM-4.7. Zatím pouze série Qwen-3 odstranila sdílený expert — všichni ostatní si ho ponechávají. Na každý žeton bylo vybráno 8 nejlepších expertů (num_experts_per_tok=8). Směrování založené na Sigmoidu (ne softmax) s e_score_correction_bias pro vyvažování zátěže — žádná pomocná ztráta, přesně jako u DeepSeek-V3. Váhy top-k jsou normalizovány (norm_topk_prob=True), poté škálovány routed_scaling_factor = 2,5 — identické s DeepSeek-V3 (GLM-4.7 používal 1,0). moe_intermediate_size = 2048, také totožný s DeepSeek-V3. Jedno zjednodušení vs DeepSeek-V3: GLM-5 zcela vynechává seskupení expertního výběru (n_group=1, topk_group=1). DeepSeek-V3 rozděluje 256 expertů do 8 skupin po 32 skupinách a vybírá top 4 skupiny, než vybere odborníky z nich. GLM-5 to přeskočí a dělá rovné top-8 na všech 256. To odpovídá přístupu GLM-4.7 — naznačuje, že skupinové směrování nemusí být nezbytné. FFN / MLP: SwiGLU, hustý a pak MoE Všechny vrstvy s předním odstupem (FFN) používají SwiGLU (gated linear unit s aktivací SiLU), bez zkreslení v jakékoli projekci. To platí jak pro husté FFN, směrované experty, tak pro sdílené experty. 78 vrstev následuje vzor hustý a pak MoE: první 3 vrstvy používají standardní hustý FFN (intermediate_size=12288) a zbývajících 75 vrstev jsou všechny MoE — žádné husté/MoE prokládání v oblasti MoE. DeepSeek-V3 používá stejný 3-hustý a pak MoE split. GLM-4.7 používal pouze jednu počáteční hustou vrstvu. V rámci každé vrstvy MoE je výstup součtem dvou částí: (1) směrovaná expertní směs (top-8 z 256, každá s intermediate_size=2048), a (2) sdíleného experta (také intermediate_size=2048), který zpracovává každý token bezpodmínečně. MODELOVÁ SKELETONA: 78 vrstev, 202k kontext Celkem 78 vrstev transformátorů (hlubší než 61 u DeepSeek-V3). hidden_size = 6144. 64 pozornostních hlav, 64 KV (MLA dělá efektivní KV mnohem levnější, než toto číslo naznačuje). RMSNorm po celou dobu (eps=1e-5). Velikost slovní zásoby 154 880. Word embeddingy nejsou ve výchozím nastavení vázány na hlavu LM (tie_word_embeddings=Nepravda). Délka kontextu je 202 752 tokenů. RoPE používá prokládané rozložení (rope_interleave=True), opět importuje apply_rotary_pos_emb_interleave přímo z DeepSeek-V3. Kód podporuje škálování YaRN přes yarn_get_mscale, ale rope_theta a rope_type jsou nastaveny v config.json modelu místo pevně zakódované ve zdroji. MTP: Multi-tokenová predikce Multi-Token Prediction je tréninková technika (popularizovaná DeepSeek-V3), při které se model učí předpovídat více budoucích tokenů současně pomocí dalších predikčních hlav, čímž se zlepšuje kvalita reprezentace. Tyto nadbytečné hlavy se používají pouze během tréninku a jsou odhozeny při odvozování. GLM-5 zřejmě používá MTP, protože kontrolní bod modelu obsahuje váhy pro 79. vrstvu dekodéru (model.layers.78), tedy vrstvu nad 78 běžnými vrstvami (indexy 0-77). Kód transformerů tyto dodatečné váhy při načítání modelu výslovně přeskočí. DeepSeek-V3 a GLM-4.7 vykazují stejný vzorec — další vrstvy váhy v kontrolním bodu, ignorované při načítání — což odpovídá tomu, jak jsou MTP trénovací hlavy obvykle dodávány a vyřazovány. CO TO ZNAMENÁ GLM-5 si nepůjčil jen pár nápadů od DeepSeek. To - nahradila celý mechanismus pozornosti (GQA - > MLA) - přijat DSA - přijaté sigmoidní směrování MoE s e_score_correction_bias - zdvojnásobil počet expertů, aby vyrovnal DeepSeekových 256, - odpovídala faktoru škálování směrování (2,5), velikosti experta mezilemuž (2048) a počtu počátečních hustých vrstev (3) - a přijal MTP. Jediné, co si GLM-5 jasně ponechal ze své vlastní linie GLM-4.7 — kde se liší od DeepSeek-V3 — je směrování s plochým top-k bez seskupeného výběru (n_group=1 oproti 8 u DeepSeek). To ale NENÍ špatná věc. Když velká laboratoř zruší svou vlastní architektonickou linii a znovu postaví na plánu konkurenta – což odpovídá nejen návrhovým vzorům, ale i mnoha klíčovým hyperparametrům – znamená to, že designový prostor byl prozkoumán. MLA + sigmoid MoE + sdílení experti + žádná ztráta aux + DSA + MTP se stává standardním receptem na hranici MoE. Návraty k architektonické novosti slábnou. Rozlišení (zatím) spočívá spíše v kurátorství dat, trénovacích receptech a infrafrauře inference, a méně v samotném transformátorovém bloku (ale možná uvidíme více architektonických změn, nebo i netransformátorový blok v budoucnu).

Top

Hodnocení

Oblíbené