AMI Labs właśnie zebrało 1,03 miliarda dolarów. World Labs zebrało 1 miliard dolarów kilka tygodni wcześniej. Oba stawiają na modele świata. Ale prawie nikt nie ma na myśli tego samego, mówiąc o tym terminie. Oto, moim zdaniem, pięć kategorii modeli świata. --- 1. Architektura Predykcyjna Wspólnego Osadzenia (JEPA) Reprezentanci: AMI Labs (@ylecun), V-JEPA 2 Główne założenie polega na tym, że rekonstrukcja pikseli sama w sobie jest nieefektywnym celem do nauki abstrakcji potrzebnych do zrozumienia fizycznego. LeCun mówi o tym od lat — przewidywanie każdego piksela przyszłości jest nieosiągalne w jakimkolwiek stochastycznym środowisku. JEPA omija to, przewidując w wyuczonym przestrzeni latentnej. Konkretnie, JEPA trenuje enkoder, który mapuje fragmenty wideo na reprezentacje, a następnie predyktor, który prognozuje zamaskowane obszary w tej przestrzeni reprezentacji — nie w przestrzeni pikseli. To jest kluczowy wybór projektowy. Model generatywny, który rekonstrukuje piksele, zmuszony jest do zaangażowania się w szczegóły niskiego poziomu (dokładna tekstura, oświetlenie, położenie liści), które są z natury nieprzewidywalne. Działając na abstrakcyjnych osadzeniach, JEPA może uchwycić "piłka spadnie ze stołu" bez konieczności halucynowania każdej klatki jej spadania. V-JEPA 2 jest jak dotąd najjaśniejszym dowodem na dużą skalę. To model o 1,2 miliarda parametrów wstępnie wytrenowany na ponad 1 milionie godzin wideo za pomocą samonadzorowanej prognozy zamaskowanej — bez etykiet, bez tekstu. Drugi etap treningu jest interesujący: zaledwie 62 godziny danych z robotów z zestawu danych DROID wystarczają, aby wyprodukować model świata warunkowany działaniem, który wspiera planowanie zero-shot. Robot generuje kandydackie sekwencje działań, przewija je przez model świata i wybiera tę, której przewidywany wynik najlepiej pasuje do obrazu celu. Działa to na obiektach i w środowiskach, które nigdy nie były widziane podczas treningu. Efektywność danych to prawdziwy techniczny nagłówek. 62 godziny to prawie nic. Sugeruje to, że samonadzorowane wstępne szkolenie na różnorodnym wideo może uruchomić wystarczającą wiedzę fizyczną, że bardzo mało danych specyficznych dla domeny jest potrzebnych w dalszej kolejności. To mocny argument za projektem JEPA — jeśli twoje reprezentacje są wystarczająco dobre, nie musisz brutalnie przystosowywać każdego zadania od podstaw. AMI Labs to wysiłek LeCuna, aby wyjść poza badania. Skierowali się najpierw na opiekę zdrowotną i robotykę, co ma sens, biorąc pod uwagę siłę JEPA w rozumieniu fizycznym przy ograniczonych danych. Ale to jest zakład długoterminowy — ich CEO otwarcie powiedział, że komercyjne produkty mogą być lata w przyszłości. --- 2. Inteligencja Przestrzenna (Modele Świata 3D) Reprezentant: World Labs (@drfeifei) ...