Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Zhuokai Zhao

Naukowiec badawczy @Meta Buduję i studiuję LLM-y oraz agentów Dzielę się przemyśleniami na temat rozumowania, realności i skalowalnej inteligencji Doktorat z informatyki @UChicagoCS

AMI Labs właśnie zebrało 1,03 miliarda dolarów. World Labs zebrało 1 miliard dolarów kilka tygodni wcześniej. Oba stawiają na modele świata. Ale prawie nikt nie ma na myśli tego samego, mówiąc o tym terminie. Oto, moim zdaniem, pięć kategorii modeli świata. --- 1. Architektura Predykcyjna Wspólnego Osadzenia (JEPA) Reprezentanci: AMI Labs (@ylecun), V-JEPA 2 Główne założenie polega na tym, że rekonstrukcja pikseli sama w sobie jest nieefektywnym celem do nauki abstrakcji potrzebnych do zrozumienia fizycznego. LeCun mówi o tym od lat — przewidywanie każdego piksela przyszłości jest nieosiągalne w jakimkolwiek stochastycznym środowisku. JEPA omija to, przewidując w wyuczonym przestrzeni latentnej. Konkretnie, JEPA trenuje enkoder, który mapuje fragmenty wideo na reprezentacje, a następnie predyktor, który prognozuje zamaskowane obszary w tej przestrzeni reprezentacji — nie w przestrzeni pikseli. To jest kluczowy wybór projektowy. Model generatywny, który rekonstrukuje piksele, zmuszony jest do zaangażowania się w szczegóły niskiego poziomu (dokładna tekstura, oświetlenie, położenie liści), które są z natury nieprzewidywalne. Działając na abstrakcyjnych osadzeniach, JEPA może uchwycić "piłka spadnie ze stołu" bez konieczności halucynowania każdej klatki jej spadania. V-JEPA 2 jest jak dotąd najjaśniejszym dowodem na dużą skalę. To model o 1,2 miliarda parametrów wstępnie wytrenowany na ponad 1 milionie godzin wideo za pomocą samonadzorowanej prognozy zamaskowanej — bez etykiet, bez tekstu. Drugi etap treningu jest interesujący: zaledwie 62 godziny danych z robotów z zestawu danych DROID wystarczają, aby wyprodukować model świata warunkowany działaniem, który wspiera planowanie zero-shot. Robot generuje kandydackie sekwencje działań, przewija je przez model świata i wybiera tę, której przewidywany wynik najlepiej pasuje do obrazu celu. Działa to na obiektach i w środowiskach, które nigdy nie były widziane podczas treningu. Efektywność danych to prawdziwy techniczny nagłówek. 62 godziny to prawie nic. Sugeruje to, że samonadzorowane wstępne szkolenie na różnorodnym wideo może uruchomić wystarczającą wiedzę fizyczną, że bardzo mało danych specyficznych dla domeny jest potrzebnych w dalszej kolejności. To mocny argument za projektem JEPA — jeśli twoje reprezentacje są wystarczająco dobre, nie musisz brutalnie przystosowywać każdego zadania od podstaw. AMI Labs to wysiłek LeCuna, aby wyjść poza badania. Skierowali się najpierw na opiekę zdrowotną i robotykę, co ma sens, biorąc pod uwagę siłę JEPA w rozumieniu fizycznym przy ograniczonych danych. Ale to jest zakład długoterminowy — ich CEO otwarcie powiedział, że komercyjne produkty mogą być lata w przyszłości. --- 2. Inteligencja Przestrzenna (Modele Świata 3D) Reprezentant: World Labs (@drfeifei) Gdzie JEPA pyta "co się wydarzy następnie", podejście Fei-Fei Li pyta "jak wygląda świat w 3D i jak mogę go zbudować?" Teza jest taka, że prawdziwe zrozumienie wymaga wyraźnej struktury przestrzennej — geometrii, głębokości, trwałości i zdolności do ponownego obserwowania sceny z nowych punktów widzenia — nie tylko przewidywania czasowego. To jest inny zakład niż JEPA: zamiast uczyć się abstrakcyjnej dynamiki, uczysz się ustrukturyzowanej reprezentacji 3D środowiska, którą możesz bezpośrednio manipulować. Ich produkt Marble generuje trwałe środowiska 3D z obrazów, tekstu, wideo lub układów 3D. "Trwałe" to kluczowe słowo — w przeciwieństwie do modelu generacji wideo, który produkuje liniową sekwencję klatek, wyjścia Marble to rzeczywiste sceny 3D z koherencją przestrzenną. Możesz orbitować kamerą, edytować obiekty, eksportować siatki. To zbliża go bardziej do narzędzia do tworzenia 3D niż do modelu predykcyjnego, co jest zamierzone. Dla kontekstu, to opiera się na linii pracy nad reprezentacją 3D w sieciach neuronowych (NeRF, 3D Gaussian Splatting), ale przesuwa się w kierunku generacji, a nie rekonstrukcji. Zamiast uchwycić rzeczywistą scenę z wielopunktowych zdjęć, Marble syntetyzuje wiarygodne nowe sceny z rzadkich danych wejściowych. Wyzwanie polega na utrzymaniu fizycznej wiarygodności — spójna geometria, rozsądne oświetlenie, sensowna okluzja — w wygenerowanym świecie, który nigdy nie istniał. --- 3. Uczona Symulacja (Generatywne Wideo + RL w Przestrzeni Latentnej) Reprezentanci: Google DeepMind (Genie 3, Dreamer V3/V4), Runway GWM-1 Ta kategoria grupuje dwie linie, które szybko się zbliżają: generatywne modele wideo, które uczą się symulować interaktywne światy, oraz agenci RL, którzy uczą się modeli świata, aby trenować polityki w wyobraźni. Linia generacji wideo. Genie 3 od DeepMind to najczystsza wersja — tekstowy prompt w, nawigowalne środowisko na wyjściu, 24 klatki na sekundę w 720p, z konsekwencją przez kilka minut. Zamiast polegać na ręcznie zbudowanym symulatorze, uczy się interaktywnych dynamik z danych. Kluczową cechą architektoniczną jest autoregresywna generacja warunkowana na działania użytkownika: każda klatka jest generowana na podstawie wszystkich poprzednich klatek oraz bieżącego wejścia (przesuń w lewo, spójrz w górę itp.). Oznacza to, że model musi utrzymywać implicitną pamięć przestrzenną — odwróć się od drzewa i wróć, a ono musi tam nadal być. DeepMind raportuje konsekwencję do około minuty, co jest imponujące, ale wciąż daleko od tego, co byłoby potrzebne do długotrwałego treningu agenta. GWM-1 od Runway opiera się na podobnych fundamentach — autoregresywna prognoza klatek zbudowana na Gen-4.5 — ale dzieli się na trzy produkty: Światy, Robotyka i Awatary. Podział na Światy / Awatary / Robotykę sugeruje, że problem praktycznej ogólności wciąż jest rozkładany według przestrzeni działań i zastosowania. Linia RL. Seria Dreamer ma dłuższą historię intelektualną. Główna idea jest czysta: ucz się modelu dynamiki latentnej z obserwacji, a następnie rozwijaj wyobrażone trajektorie w przestrzeni latentnej i optymalizuj politykę poprzez wsteczną propagację przez prognozy modelu. Agent nigdy nie musi wchodzić w interakcję z rzeczywistym środowiskiem podczas nauki polityki. Dreamer V3 był pierwszym AI, które zdobyło diamenty w Minecraft bez danych od ludzi. Dreamer 4 zrobił to samo całkowicie offline — bez interakcji ze środowiskiem. Architektonicznie, Dreamer 4 przeszedł od wcześniejszej linii rekurencyjnej Dreamera do bardziej skalowalnej receptury modelu świata opartej na transformatorach i wprowadził "wymuszanie skrótów" — cel treningowy, który pozwala modelowi przeskoczyć z hałaśliwych do czystych prognoz w zaledwie 4 krokach zamiast 64 typowych w modelach dyfuzji. To sprawia, że wnioskowanie w czasie rzeczywistym na pojedynczym H100 jest możliwe. Te dwie podlinie wcześniej wydawały się odrębne: generacja wideo produkuje wizualne środowiska, podczas gdy modele świata RL produkują wytrenowane polityki. Ale Dreamer 4 zatarł tę granicę — ludzie mogą teraz grać w jego modelu świata interaktywnie, a Genie 3 jest używane do trenowania agentów SIMA DeepMind. Punktem zbieżności jest to, że obie potrzebują tego samego: modelu, który może dokładnie symulować, jak działania wpływają na środowiska przez długie horyzonty. Otwarte pytanie dla całej tej kategorii to to, które LeCun ciągle podnosi: czy nauka generowania pikseli, które wyglądają fizycznie poprawnie, naprawdę oznacza, że model rozumie fizykę? Czy to tylko dopasowywanie wzorców wyglądu? Zdolność Dreamera 4 do zdobywania diamentów w Minecraft z czystej wyobraźni jest silnym empirycznym kontrargumentem, ale to także gra z dyskretnymi, uczącymi się mechanikami — rzeczywisty świat jest bardziej chaotyczny. --- 4. Fizyczna Infrastruktura AI (Platforma Symulacyjna) Reprezentant: NVIDIA Cosmos Zagranie NVIDIA polega na tym, aby nie budować modelu świata, ale budować platformę, z której wszyscy inni korzystają do budowy swoich. Cosmos zadebiutował na CES w styczniu 2025 roku i obejmuje pełny stos — pipeline kuracji danych (przetwarzanie 20 milionów godzin wideo w 14 dni na Blackwell, w porównaniu do 3+ lat na CPU), wizualny tokenizator z 8-krotnie lepszą kompresją niż wcześniejsze SOTA, trening modeli za pomocą NeMo i wdrożenie przez mikroserwisy NIM. Wstępnie wytrenowane modele podstawowe świata są trenowane na 9 000 bilionach tokenów z 20 milionów godzin rzeczywistego wideo obejmującego dane dotyczące jazdy, przemysłu, robotyki i aktywności ludzkiej. Występują w dwóch rodzinach architektonicznych: opartych na dyfuzji (działających na ciągłych tokenach latentnych) i opartych na transformatorach autoregresywnych (prognoza następnego tokena na zdyskretyzowanych tokenach). Oba mogą być dostosowane do konkretnych domen. Na tym opierają się trzy rodziny modeli. Predict generuje przyszłe stany wideo z tekstu, obrazu lub danych wideo — zasadniczo prognozowanie wideo, które można później dostosować do konkretnych scenariuszy robotów lub jazdy. Transfer zajmuje się adaptacją domeny sim-do-real, co jest jednym z uporczywych bólów głowy w fizycznej AI — twój model działa świetnie w symulacji, ale psuje się w rzeczywistym świecie z powodu luk wizualnych i dynamicznych. Reason (dodany na GTC 2025) wprowadza rozumowanie łańcucha myśli w fizycznych scenach — świadomość spatiotemporalną, zrozumienie przyczynowe interakcji, pytania i odpowiedzi wideo. --- 5. Aktywne Wnioskowanie Reprezentant: VERSES AI (Karl Friston) To jest wyjątek na liście — nie z tradycji głębokiego uczenia, ale z neuronauki obliczeniowej. Zasada Wolnej Energii Karla Fristona mówi, że inteligentne systemy ciągle generują prognozy dotyczące swojego środowiska i działają, aby zminimalizować zaskoczenie (technicznie: wariacyjna wolna energia, górna granica zaskoczenia). Gdzie standardowy RL jest zazwyczaj formułowany wokół maksymalizacji nagrody, aktywne wnioskowanie formułuje zachowanie jako minimalizację wariacyjnej / oczekiwanej wolnej energii, co łączy preferencje ukierunkowane na cel z wartością epistemiczną. To prowadzi do naturalnego zachowania eksploracyjnego: agent jest przyciągany do sytuacji, w których jest niepewny, ponieważ rozwiązanie niepewności redukuje wolną energię. VERSES zbudowało AXIOM (Aktywne Rozszerzające Wnioskowanie z Modelami Skoncentrowanymi na Obiektach) na tym fundamencie. Architektura jest zasadniczo różna od modeli świata w sieciach neuronowych. Zamiast uczyć się monolitycznego przybliżacza funkcji, AXIOM utrzymuje ustrukturyzowany model generatywny, w którym każdy byt w środowisku jest dyskretnym obiektem z typowanymi atrybutami i relacjami. Wnioskowanie jest bayesowskie — przekonania są rozkładami prawdopodobieństwa, które są aktualizowane za pomocą przekazywania wiadomości, a nie spadku gradientu. To czyni je interpretowalnymi (możesz sprawdzić, co agent wierzy o każdym obiekcie), kompozycyjnymi (dodaj nowy typ obiektu bez ponownego trenowania) i niezwykle efektywnymi pod względem danych. W swojej pracy nad robotyką pokazali hierarchiczną konfigurację wieloagentową, w której każdy staw stawu ramienia robota jest swoim własnym agentem aktywnego wnioskowania. Agenci na poziomie stawów zajmują się lokalną kontrolą silników, podczas gdy agenci wyższego poziomu zajmują się planowaniem zadań, wszyscy koordynują poprzez wspólne przekonania w hierarchii. Cały system dostosowuje się w czasie rzeczywistym do nieznanych środowisk bez ponownego trenowania — przesuwasz obiekt docelowy, a agent natychmiast przemyśla plan, ponieważ prowadzi wnioskowanie online, a nie wykonuje stałej polityki. W kwietniu 2025 roku wprowadzili produkt komercyjny (Genius), a benchmarki AXIOM w porównaniu do bazowych RL są konkurencyjne w standardowych zadaniach kontrolnych, używając przy tym rzędy wielkości mniej danych. --- imo, te pięć kategorii wcale nie konkuruje — rozwiązują różne podproblemy. JEPA kompresuje zrozumienie fizyczne. Inteligencja przestrzenna rekonstrukuje strukturę 3D. Uczona symulacja szkoli agentów poprzez generowane doświadczenie. NVIDIA dostarcza łopaty i kilofy. Aktywne wnioskowanie oferuje zasadniczo inną teoretyczną koncepcję inteligencji. Moim zdaniem granice między nimi szybko się zacierają.

Eksploracja architektur LLM na granicy w dużej mierze się zbiega. Przeszukałem kod transformatorów HuggingFace dla nowo wydanego GLM-5 od @Zai_org (zai-org/GLM-5). Oto szczegółowy przegląd architektury i to, co mówi nam o kierunku projektowania LLM. TL;DR: Architektonicznie, GLM-5 ściśle podąża za DeepSeek-V3 z drobnymi dostosowaniami. UWAGA: MLA zastępuje GQA Największą zmianą z GLM-4.7 do GLM-5 jest uwaga. GLM-4.7 używał standardowej uwagi grupowej (GQA) z 96 głowami Q, 8 głowami KV, oddzielnymi projekcjami q/k/v. GLM-5 porzuca to wszystko i przyjmuje wielogłową ukrytą uwagę DeepSeek (MLA). W pipeline MLA, zapytania przechodzą przez dwustopniową projekcję w stylu LoRA: ukryte -> q_a_proj do rangi 2048 -> RMSNorm -> q_b_proj do 64 głów * 256 wymiarów. Klucze i wartości są wspólnie kompresowane do jednego wąskiego miejsca o niskiej randze: ukryte -> kv_a_proj do rangi 512+64 -> podzielone na ścieżkę latentną KV i ścieżkę RoPE. Część latentna jest rozszerzana z powrotem przez kv_b_proj do 64 głów o wymiarach (192 nope + 256 wartość). To jest dokładnie ten sam projekt MLA co DeepSeek-V3. GLM-5 po prostu dostosowuje wymiary: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128. kv_lora_rank (512) i qk_rope_head_dim (64) są identyczne. Również, brak jakiejkolwiek bias w uwadze (attention_bias domyślnie ustawione na False). Każda projekcja (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj i wszystkie projekcje indeksera DSA) jest wolna od bias. To jest teraz standardowa praktyka; wśród głównych modeli wydanych w 2025 roku, tylko GPT-oss nadal używa bias w uwadze. DSA: Rzadka uwaga DeepSeek GLM-5 przyjmuje natywną rzadką uwagę DeepSeek V3.2 (DSA) — to jest jedyna cecha architektoniczna, którą @Zai_org wyraźnie podkreślił. Klasa uwagi zawiera dedykowane komponenty indeksera: wq_b, wk, k_norm i weights_proj, używane do wyboru 2048 najbardziej odpowiednich tokenów (index_topk=2048) dla każdego kroku uwagi zamiast uwagi nad pełnym kontekstem. ROUTING MoE: Ta sama receptura i te same liczby 256 kierowanych ekspertów + 1 wspólny ekspert. To samo co DeepSeek-V3 pod tym względem; wzrost z 128 kierowanych ekspertów w GLM-4.7. Jak dotąd, tylko seria Qwen-3 usunęła wspólnego eksperta — wszyscy inni go zachowują. Top-8 ekspertów wybieranych na token (num_experts_per_tok=8). Routing oparty na sigmoidalnej (nie softmax) z e_score_correction_bias dla równoważenia obciążenia — brak dodatkowej straty, dokładnie jak w DeepSeek-V3. Wagi top-k są normalizowane (norm_topk_prob=True), a następnie skalowane przez routed_scaling_factor = 2.5 — identyczne z DeepSeek-V3 (GLM-4.7 używał 1.0). moe_intermediate_size = 2048, również identyczne z DeepSeek-V3. Jedna uproszczenie w porównaniu do DeepSeek-V3: GLM-5 całkowicie rezygnuje z grupowego wyboru ekspertów (n_group=1, topk_group=1). DeepSeek-V3 dzieli 256 ekspertów na 8 grup po 32 i wybiera top-4 grupy przed wyborem ekspertów w ich obrębie. GLM-5 pomija to i po prostu robi płaskie top-8 wśród wszystkich 256. To jest zgodne z podejściem GLM-4.7 — sugerując, że grupowe routowanie może nie być niezbędne. FFN / MLP: SwiGLU, gęste-potem-MoE Wszystkie warstwy feed-forward (FFN) używają SwiGLU (gated linear unit z aktywacją SiLU), bez bias w jakiejkolwiek projekcji. To dotyczy zarówno gęstych FFN, kierowanych ekspertów, jak i wspólnych ekspertów. 78 warstw podąża za wzorem gęstym-potem-MoE: pierwsze 3 warstwy używają standardowego gęstego FFN (intermediate_size=12288), a pozostałe 75 warstw to wszystkie MoE — brak gęstego/MoE przeplatania w obrębie regionu MoE. DeepSeek-V3 używa tego samego podziału 3-gęstych-potem-MoE. GLM-4.7 używał tylko 1 początkowej gęstej warstwy. W każdej warstwie MoE, wyjście jest sumą dwóch części: (1) mieszanka kierowanych ekspertów (top-8 z 256, każdy z intermediate_size=2048), a (2) wspólny ekspert (również intermediate_size=2048), który przetwarza każdy token bezwarunkowo. SZKIELET MODELU: 78 warstw, 202k kontekst Łącznie 78 warstw transformatorów (głębsze niż 61 DeepSeek-V3). hidden_size = 6144. 64 głowy uwagi, 64 głowy KV (MLA sprawia, że efektywna KV jest znacznie tańsza niż sugeruje ta liczba). RMSNorm w całym zakresie (eps=1e-5). Rozmiar słownika 154,880. Osadzenia słów nie są domyślnie powiązane z głową LM (tie_word_embeddings=False). Długość kontekstu wynosi 202,752 tokenów. RoPE używa przeplatanej struktury (rope_interleave=True), ponownie importując apply_rotary_pos_emb_interleave bezpośrednio z DeepSeek-V3. Kod obsługuje skalowanie YaRN za pomocą yarn_get_mscale, ale rope_theta i rope_type są ustawione w config.json modelu, a nie zakodowane na stałe w źródle. MTP: Multi-Token Prediction Multi-Token Prediction to technika treningowa (spopularyzowana przez DeepSeek-V3), w której model uczy się przewidywać wiele przyszłych tokenów jednocześnie za pomocą dodatkowych głowic predykcyjnych, poprawiając jakość reprezentacji. Te dodatkowe głowice są używane tylko podczas treningu i odrzucane w czasie wnioskowania. GLM-5 wydaje się używać MTP, ponieważ punkt kontrolny modelu zawiera wagi dla 79. warstwy dekodera (model.layers.78), jednej poza 78 regularnymi warstwami (indeksy 0-77). Kod transformatorów wyraźnie pomija te dodatkowe wagi podczas ładowania modelu. DeepSeek-V3 i GLM-4.7 wykazują ten sam wzór — dodatkowe wagi warstwy w punkcie kontrolnym, ignorowane w czasie ładowania — zgodne z tym, jak zazwyczaj dostarczane i odrzucane są głowice treningowe MTP. CO TO ZNACZY GLM-5 nie tylko pożyczył kilka pomysłów z DeepSeek. Zastąpił - cały swój mechanizm uwagi (GQA -> MLA) - przyjął DSA - przyjął sigmoidalne routowanie MoE z e_score_correction_bias - podwoił liczbę ekspertów, aby dopasować się do 256 DeepSeek, - dopasował współczynnik skalowania routingu (2.5), rozmiar pośredni ekspertów (2048) i liczbę początkowych gęstych warstw (3) - i przyjął MTP. Jedyną rzeczą, którą GLM-5 wyraźnie zachował z własnej linii GLM-4.7 — gdzie różni się od DeepSeek-V3 — jest płaskie routowanie top-k bez grupowego wyboru (n_group=1 vs 8 DeepSeek). Jednak to NIE jest zła rzecz. Kiedy główne laboratorium porzuca swoją własną linię architektoniczną i odbudowuje na podstawie planu konkurenta — dopasowując nie tylko wzory projektowe, ale wiele kluczowych hiperparametrów — oznacza to, że przestrzeń projektowa została zbadana. MLA + sigmoidalne MoE + wspólni eksperci + brak dodatkowej straty + DSA + MTP staje się standardową recepturą MoE na granicy. Zyski z nowości architektonicznej maleją. Różnicowanie (na razie) leży bardziej w kuracji danych, przepisach treningowych i infrastrukturze wnioskowania, a mniej w samym bloku transformatora (ale może zobaczymy więcej zmian architektonicznych, a nawet bloków niebędących transformatorami w przyszłości).

Najlepsze

Ranking

Ulubione